Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: LanDiff – 浙大联合月之暗面推出的文本到视频生成混合框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > LanDiff – 浙大联合月之暗面推出的文本到视频生成混合框架
AIGC 资讯

LanDiff – 浙大联合月之暗面推出的文本到视频生成混合框架

站外新闻
最近更新: 2026年6月8日 下午4:30
SHARE

LanDiff是什么

LanDiff是用于高质量的文本到视频(T2V)生成的创新混合框架,结合了自回归语言模型(LLM)和扩散模型(Diffusion Model)的优势,通过粗到细的生成方式,有效克服了单一方法在语义理解和视觉质量上的局限性。在VBench T2V基准测试中取得了85.43的高分,超越了包括13B的Hunyuan Video在内的多个开源和商业模型。

阅读目录
  • LanDiff是什么
  • LanDiff的主要功能
  • LanDiff的技术原理
  • LanDiff的项目地址
  • LanDiff的应用场景

LanDiff

LanDiff的主要功能

  • 高效语义压缩:通过语义标记器将3D视觉特征压缩为1D离散表示,压缩比高达14,000倍,保留丰富语义信息。
  • 高质量视频生成:基于流式扩散模型,将语义标记细化为高保真视频,支持长视频生成,降低计算成本。
  • 语义一致性和因果建模:依靠语言模型的自回归生成,确保视频与文本高度一致且时间连贯,避免传统扩散模型的时间不连贯问题。
  • 灵活控制与定制:支持帧数、运动分数等控制条件,可生成特定长度和动态特性的视频,平衡高质量视觉效果与语义准确性。
  • 高效计算与优化:采用视频帧分组技术减少时间冗余,使用高效的Transformer结构和注意力机制,降低计算资源消耗。

LanDiff的技术原理

  • 粗到细的生成范式:LanDiff采用两阶段生成过程:
    • 第一阶段(粗粒度生成):基于语言模型(LLM)生成语义标记,这些标记代表视频的高级语义结构,为后续的视频生成提供蓝图。
    • 第二阶段(细粒度生成):通过扩散模型将这些语义标记细化为高保真视频,逐步添加细节,最终生成高质量的视频。
  • 语义标记器:将3D视觉特征压缩为紧凑的1D离散表示,压缩比高达14,000倍。受MP4视频编码算法启发,将视频帧分为关键帧(IFrame)和非关键帧(PFrame),关键帧进行完整编码,非关键帧仅捕获时间变化,显著减少时间冗余。
  • 语言模型:使用预训练的T5-XXL模型提取文本特征,并将视频转换为1D离散标记序列。引入额外的控制条件(如帧数和运动分数),增强生成结果的可控性。通过自回归方式生成语义标记,确保生成内容的语义一致性和时间连贯性。
  • 流式扩散模型:采用与MMDiT类似的架构,通过视频标记器解码器将语义标记解码为语义特征,然后作为条件指导扩散模型生成视频。

LanDiff的项目地址

  • 项目官网:https://landiff.github.io/
  • arXiv技术论文:https://arxiv.org/pdf/2503.04606

LanDiff的应用场景

  • 视频制作:LanDiff可以快速生成高质量的视频内容,帮助视频创作者、广告公司和媒体机构高效地制作视频广告、短片、动画等。
  • 虚拟现实(VR)和增强现实(AR):生成虚拟场景和角色动画,丰富VR和AR应用的内容生态。
  • 教育视频:根据教学大纲或知识点描述,生成教育视频,帮助学生更直观地理解复杂概念。
  • 社交媒体内容:为社交媒体平台生成个性化、吸引人的视频内容,提升品牌影响力和用户参与度。
BrowserAct Skills – 开源的 AI Agent 浏览器自动化 CLI 工具
WinClaw 龙虾永久免费 Token 限时抢!8000个名额领完即止,AI Agent 办公自动化全攻略
Qihoo-T2X – 360 AI 研究院和中山大学开源的高效多模态生成模型
字节豆包推出首款全模态理解模型Doubao-Seed-2.0-lite:视频、图像、音频、文本原生统一,Agent能力全面升级
2026高考AI防作弊硬核举措:主流大模型限时上锁,精准掐断秒级解题通道
分享
Email 复制链接 打印
Share
上一篇 UniTok – 字节联合港大、华中科技推出的统一视觉分词器
下一篇 ComfyUI-Copilot – 阿里推出基于 ComfyUI 的 AI 智能助手
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

ComfyUI-Copilot – 阿里推出基于 ComfyUI 的 AI 智能助手
AIGC 资讯
UniTok – 字节联合港大、华中科技推出的统一视觉分词器
AIGC 资讯
TaoAvatar – 阿里推出的实时高清3D全身对话数字人技术
AIGC 资讯
AxBench – 斯坦福大学推出评估语言模控制方法的基准测试框架
AIGC 资讯

相关推荐

AIGC 资讯

SkyReels-V1 – 昆仑万维开源首个面向AI短剧创作的视频生成模型

站外新闻
AIGC 资讯

How you can find Foreign Star of the wedding

lilizhu
量子芯片科技感占位特色图
AI 工具AIGC 资讯

ChatGPT广告管理器全面开放:OpenAI降低门槛,中小企业营销迎来AI获客黄金时代

站外新闻
AIGC ChatGPT Ads Manager openai 中小企业营销 数字广告
AIGC 资讯

Dynamic Workflows – Claude Code 推出的动态工作流

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.