Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 北大微软联手突破:Next-Frame Diffusion实现30+FPS实时自回归视频生成,扩散模型与因果注意力新范式
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 北大微软联手突破:Next-Frame Diffusion实现30+FPS实时自回归视频生成,扩散模型与因果注意力新范式
AI 工具AIGC 资讯

北大微软联手突破:Next-Frame Diffusion实现30+FPS实时自回归视频生成,扩散模型与因果注意力新范式

站外新闻
最近更新: 2026年6月7日 下午8:27
动作条件生成 实时生成 扩散模型 自回归视频生成 视频生成模型
SHARE

💡 站外导读:视频生成技术正从离线渲染迈向实时交互时代,但现有模型常面临质量、速度与可控性难以兼顾的困境——自回归模型因果性好但速度慢,扩散模型保真度高却缺乏时序控制。北大与微软提出的Next-Frame Diffusion(NFD)直击这一行业痛点,创新融合扩散模型与因果注意力机制,首次在自回归框架下实现超过30FPS的实时高保真视频生成,为游戏、VR、自动驾驶等实时交互应用开辟全新可能。

Next-Frame Diffusion是什么

Next-Frame Diffusion(NFD)是北京大学和微软研究院联合推出的自回归视频生成模型,结合扩散模型的高保真生成能力和自回归模型的因果性和可控性。Next-Frame Diffusion基于块因果注意力机制(Block-wise Causal Attention)和扩散变换器(Diffusion Transformer)实现高效的帧级生成。模型在保持视频质量和连贯性的同时,实现超过30FPS的实时视频生成。模型引入、一致性蒸馏(Consistency Distillation)和推测性采样(Speculative Sampling)等技术,进一步提升采样效率。模型在大规模动作条件视频生成任务中表现出色,显著优于现有方法。

阅读目录
  • Next-Frame Diffusion是什么
  • Next-Frame Diffusion的主要功能
  • Next-Frame Diffusion的技术原理
  • Next-Frame Diffusion的项目地址
  • Next-Frame Diffusion的应用场景
      • 📝 站长洞察 (Editor’s Insight)
Next-Frame Diffusion

Next-Frame Diffusion的主要功能

  • 实时视频生成:支持在高性能GPU上实现超过30FPS的实时视频生成,非常适合用在需要快速响应的交互式应用,如游戏、虚拟现实和实时视频编辑等场景。
  • 高保真视频生成:在连续空间中生成高保真度的视频内容,相比传统的自回归模型,能更好地捕捉细节和纹理。
  • 动作条件生成:根据用户的实时操作生成相应的视频内容,在交互式应用中具有极高的灵活性和可控性。
  • 长期视频生成:支持生成任意长度的视频内容,适用需要长期连贯性的应用,如故事叙述或模拟环境。

Next-Frame Diffusion的技术原理

  • 块因果注意力机制(Block-wise Causal Attention):模型的核心是块因果注意力机制,结合帧内的双向注意力和帧间的因果依赖。在每个帧内,模型进行双向自注意力操作,捕捉帧内的空间依赖关系。在帧间,模型保持因果性,每个帧只能依赖于之前的帧,确保生成的连贯性和因果一致性。
  • 扩散模型与扩散变换器(Diffusion Transformer):模型基于扩散模型的原理,在逐步去噪的过程生成视频帧。扩散变换器(Diffusion Transformer)是NFD的关键组件,基于Transformer架构的强大建模能力处理视频的时空依赖关系。
  • 一致性蒸馏(Consistency Distillation):为加速采样过程,引入一致性蒸馏技术,将图像领域的sCM(Simplified Consistency Model)扩展到视频领域,显著提高生成速度,保持生成内容的高质量。
  • 推测性采样(Speculative Sampling):用相邻帧动作输入的一致性,提前生成未来几帧。如果后续检测到动作输入发生变化,丢弃推测性生成的帧,从最后一个验证帧重新开始生成,著减少推理时间,提高实时生成的效率。
  • 动作条件输入(Action Conditioning):NFD基于动作条件输入来控制视频生成的方向和内容。动作输入可以是用户的操作指令、控制信号或其他形式的条件信息,模型根据输入生成相应的视频帧。

Next-Frame Diffusion的项目地址

  • 项目官网:https://nextframed.github.io/
  • arXiv技术论文:https://arxiv.org/pdf/2506.01380

Next-Frame Diffusion的应用场景

  • 游戏开发:模型根据玩家操作实时生成动态的游戏环境,提升游戏体验。
  • 虚拟现实(VR)和增强现实(AR):模型实时生成虚拟场景,为VR和AR应用提供沉浸式体验。
  • 视频内容创作:模型生成高质量视频内容,适用广告、电影和电视剧制作。
  • 自动驾驶和机器人:生成自动驾驶车辆或机器人在不同环境下的行为和场景,用在训练和测试。
  • 教育和培训:生成虚拟实验环境,帮助学生进行科学实验和学习。

📝 站长洞察 (Editor’s Insight)

NFD的推出标志着视频生成技术迈入“实时因果可控”新阶段。其核心突破在于将扩散模型的生成质量与自回归模型的因果建模能力深度融合,并通过块因果注意力机制实现帧内精细感知与帧间连贯依赖的平衡。更值得关注的是,一致性蒸馏与推测性采样等工程优化技术,将学术研究与产业落地间的效率鸿沟显著缩小。从产业视角看,这不仅是AIGC工具的升级,更是实时交互式数字内容生产基础设施的关键跃迁——当AI能以每秒30帧以上速度响应用户动作,游戏开发、虚拟制片乃至机器人训练将重构工作流。此次北大与微软的跨机构合作,也预示着顶尖学术资源与产业工程能力正加速融合,共同推动视频生成从“素材工具”进化为“实时环境引擎”。

Mark Copy AI
DAM-3B – 英伟达推出的多模态大语言模型
VEG3
FlowithOS深度评测:全球首个智能体操作系统,如何以95分碾压OpenAI Atlas?
Brain.fm
TAGGED:动作条件生成实时生成扩散模型自回归视频生成视频生成模型
分享
Email 复制链接 打印
Share
上一篇 美团LLIA框架深度解析:实时音频驱动肖像视频生成,如何实现低延迟高保真交互?
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

美团LLIA框架深度解析:实时音频驱动肖像视频生成,如何实现低延迟高保真交互?
AI 工具 AIGC 资讯
腾讯开源Hunyuan3D-2.1:工业级3D生成模型,支持PBR材质与多模态输入,1秒极速出图
AI 工具 AIGC 资讯
字节跳动MAGREF横空出世:单图+文本一键生成多主体视频,AI视频生成迎来新范式
AI 工具 AIGC 资讯
微软研究院发布Code Researcher:AI Agent深度挖掘代码库与提交历史,自动化修复系统级崩溃
AI 工具 AIGC 资讯

相关推荐

AI 工具

Slazzer图像背景去除

remaker
AIGC 资讯

GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型

站外新闻
AIGC 资讯

Xiaomi MiMo – 小米开源的首个推理大模型

站外新闻
AIGC 资讯

Luma Ray2 – Luma AI 推出的最新视频生成模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.