LanDiff – 浙大联合月之暗面推出的文本到视频生成混合框架

最近更新: 2026年6月8日下午4:30

LanDiff是什么

LanDiff是用于高质量的文本到视频（T2V）生成的创新混合框架，结合了自回归语言模型（LLM）和扩散模型（Diffusion Model）的优势，通过粗到细的生成方式，有效克服了单一方法在语义理解和视觉质量上的局限性。在VBench T2V基准测试中取得了85.43的高分，超越了包括13B的Hunyuan Video在内的多个开源和商业模型。

阅读目录

LanDiff是什么
LanDiff的主要功能
LanDiff的技术原理
LanDiff的项目地址
LanDiff的应用场景

LanDiff

LanDiff的主要功能

高效语义压缩：通过语义标记器将3D视觉特征压缩为1D离散表示，压缩比高达14,000倍，保留丰富语义信息。
高质量视频生成：基于流式扩散模型，将语义标记细化为高保真视频，支持长视频生成，降低计算成本。
语义一致性和因果建模：依靠语言模型的自回归生成，确保视频与文本高度一致且时间连贯，避免传统扩散模型的时间不连贯问题。
灵活控制与定制：支持帧数、运动分数等控制条件，可生成特定长度和动态特性的视频，平衡高质量视觉效果与语义准确性。
高效计算与优化：采用视频帧分组技术减少时间冗余，使用高效的Transformer结构和注意力机制，降低计算资源消耗。

LanDiff的技术原理

粗到细的生成范式：LanDiff采用两阶段生成过程：
- 第一阶段（粗粒度生成）：基于语言模型（LLM）生成语义标记，这些标记代表视频的高级语义结构，为后续的视频生成提供蓝图。
- 第二阶段（细粒度生成）：通过扩散模型将这些语义标记细化为高保真视频，逐步添加细节，最终生成高质量的视频。
语义标记器：将3D视觉特征压缩为紧凑的1D离散表示，压缩比高达14,000倍。受MP4视频编码算法启发，将视频帧分为关键帧（IFrame）和非关键帧（PFrame），关键帧进行完整编码，非关键帧仅捕获时间变化，显著减少时间冗余。
语言模型：使用预训练的T5-XXL模型提取文本特征，并将视频转换为1D离散标记序列。引入额外的控制条件（如帧数和运动分数），增强生成结果的可控性。通过自回归方式生成语义标记，确保生成内容的语义一致性和时间连贯性。
流式扩散模型：采用与MMDiT类似的架构，通过视频标记器解码器将语义标记解码为语义特征，然后作为条件指导扩散模型生成视频。

LanDiff的项目地址

项目官网：https://landiff.github.io/
arXiv技术论文：https://arxiv.org/pdf/2503.04606

LanDiff的应用场景

视频制作：LanDiff可以快速生成高质量的视频内容，帮助视频创作者、广告公司和媒体机构高效地制作视频广告、短片、动画等。
虚拟现实（VR）和增强现实（AR）：生成虚拟场景和角色动画，丰富VR和AR应用的内容生态。
教育视频：根据教学大纲或知识点描述，生成教育视频，帮助学生更直观地理解复杂概念。
社交媒体内容：为社交媒体平台生成个性化、吸引人的视频内容，提升品牌影响力和用户参与度。

分享

UniTok – 字节联合港大、华中科技推出的统一视觉分词器

ComfyUI-Copilot – 阿里推出基于 ComfyUI 的 AI 智能助手

发表评价

发表评价取消回复