Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: LanDiff – 浙大联合月之暗面推出的文本到视频生成混合框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > LanDiff – 浙大联合月之暗面推出的文本到视频生成混合框架
AIGC 资讯

LanDiff – 浙大联合月之暗面推出的文本到视频生成混合框架

站外新闻
最近更新: 2026年6月8日 下午4:30
SHARE

LanDiff是什么

LanDiff是用于高质量的文本到视频(T2V)生成的创新混合框架,结合了自回归语言模型(LLM)和扩散模型(Diffusion Model)的优势,通过粗到细的生成方式,有效克服了单一方法在语义理解和视觉质量上的局限性。在VBench T2V基准测试中取得了85.43的高分,超越了包括13B的Hunyuan Video在内的多个开源和商业模型。

阅读目录
  • LanDiff是什么
  • LanDiff的主要功能
  • LanDiff的技术原理
  • LanDiff的项目地址
  • LanDiff的应用场景

LanDiff

LanDiff的主要功能

  • 高效语义压缩:通过语义标记器将3D视觉特征压缩为1D离散表示,压缩比高达14,000倍,保留丰富语义信息。
  • 高质量视频生成:基于流式扩散模型,将语义标记细化为高保真视频,支持长视频生成,降低计算成本。
  • 语义一致性和因果建模:依靠语言模型的自回归生成,确保视频与文本高度一致且时间连贯,避免传统扩散模型的时间不连贯问题。
  • 灵活控制与定制:支持帧数、运动分数等控制条件,可生成特定长度和动态特性的视频,平衡高质量视觉效果与语义准确性。
  • 高效计算与优化:采用视频帧分组技术减少时间冗余,使用高效的Transformer结构和注意力机制,降低计算资源消耗。

LanDiff的技术原理

  • 粗到细的生成范式:LanDiff采用两阶段生成过程:
    • 第一阶段(粗粒度生成):基于语言模型(LLM)生成语义标记,这些标记代表视频的高级语义结构,为后续的视频生成提供蓝图。
    • 第二阶段(细粒度生成):通过扩散模型将这些语义标记细化为高保真视频,逐步添加细节,最终生成高质量的视频。
  • 语义标记器:将3D视觉特征压缩为紧凑的1D离散表示,压缩比高达14,000倍。受MP4视频编码算法启发,将视频帧分为关键帧(IFrame)和非关键帧(PFrame),关键帧进行完整编码,非关键帧仅捕获时间变化,显著减少时间冗余。
  • 语言模型:使用预训练的T5-XXL模型提取文本特征,并将视频转换为1D离散标记序列。引入额外的控制条件(如帧数和运动分数),增强生成结果的可控性。通过自回归方式生成语义标记,确保生成内容的语义一致性和时间连贯性。
  • 流式扩散模型:采用与MMDiT类似的架构,通过视频标记器解码器将语义标记解码为语义特征,然后作为条件指导扩散模型生成视频。

LanDiff的项目地址

  • 项目官网:https://landiff.github.io/
  • arXiv技术论文:https://arxiv.org/pdf/2503.04606

LanDiff的应用场景

  • 视频制作:LanDiff可以快速生成高质量的视频内容,帮助视频创作者、广告公司和媒体机构高效地制作视频广告、短片、动画等。
  • 虚拟现实(VR)和增强现实(AR):生成虚拟场景和角色动画,丰富VR和AR应用的内容生态。
  • 教育视频:根据教学大纲或知识点描述,生成教育视频,帮助学生更直观地理解复杂概念。
  • 社交媒体内容:为社交媒体平台生成个性化、吸引人的视频内容,提升品牌影响力和用户参与度。
BlockDance – 复旦联合字节推出的扩散模型加速方法
腾讯混元图像3.0图生图模型:80B MoE架构实现精准图像编辑与多图融合|AI创意工具全面解析
融光AI Fusion Video:开源全流程AI视频创作平台,Agent架构自动分镜到成片,多模型支持Docker一键部署
VoiceCanvas – 开源AI语音合成平台,支持多语言、多音色、声音克隆服务
全球首个!国地中心「白虎-VTouch」开源6万分钟跨本体视触觉数据集,破解具身智能数据瓶颈
分享
Email 复制链接 打印
Share
上一篇 UniTok – 字节联合港大、华中科技推出的统一视觉分词器
下一篇 ComfyUI-Copilot – 阿里推出基于 ComfyUI 的 AI 智能助手
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

普林斯顿×复旦重磅开源:HistAgent,全球首个AI历史研究助手,29种语言+多模态碾压通用大模型
AI 工具 AIGC 资讯
字节跳动发布SeedVR2:单步视频修复模型,以极低成本实现1080p高清画质革新
AI 工具 AIGC 资讯
北大微软联手突破:Next-Frame Diffusion实现30+FPS实时自回归视频生成,扩散模型与因果注意力新范式
AI 工具 AIGC 资讯
美团LLIA框架深度解析:实时音频驱动肖像视频生成,如何实现低延迟高保真交互?
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

DynVFX – AI视频增强技术,将新动态内容与原始视频无缝融合

站外新闻
AIGC 资讯

日日新SenseNova V6 – 商汤推出的多模态融合模型系列

站外新闻
AI 工具AIGC 资讯

腾讯Hunyuan-GameCraft:实时交互式游戏视频生成框架,键盘鼠标精准控制,支持百万级AAA游戏场景

站外新闻
交互式AI 实时推理 模型蒸馏 游戏视频生成 腾讯混元
AI 工具AIGC 资讯

阿里通义开源Qwen3-Coder-Flash:30B参数逼近顶配,256K上下文重塑编程范式

站外新闻
Agentic编程 Qwen3-Coder-Flash 开源编程大模型 本地部署 长上下文理解
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.