Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 英伟达开源Lyra 2.0:单图生成可探索3D世界,打造具身智能新引擎
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 英伟达开源Lyra 2.0:单图生成可探索3D世界,打造具身智能新引擎
AI 工具AIGC 资讯

英伟达开源Lyra 2.0:单图生成可探索3D世界,打造具身智能新引擎

站外新闻
最近更新: 2026年5月25日 下午10:28
3D Gaussian Splatting 3D生成 NVIDIA 具身智能 视频扩散模型
SHARE

💡 站外导读:在具身智能和元宇宙的浪潮下,如何低成本、高效率地构建可交互的3D仿真环境成为核心挑战。传统3D建模耗时且昂贵,而现有生成技术又面临长程一致性差、无法持久探索的瓶颈。英伟达最新开源的Lyra 2.0框架,旨在彻底改变这一现状,通过前沿的AI技术,从单张图片出发,直接生成一个你能够自由漫步、反复探索的无限3D世界。

Lyra 2.0是什么

Lyra 2.0 是 NVIDIA 推出的可探索生成式 3D 世界框架。框架从单张图像出发,结合相机控制视频生成与前馈 3D 重建技术,通过”检索-生成-更新”迭代循环,构建可持久漫游的大规模 3D 场景。系统采用每帧独立 3D 几何缓存进行空间记忆检索,引入自增强训练策略抑制时间漂移,实现数百帧长程 3D 一致性生成。Lyra 2.0 生成结果可重建为高保真 3D Gaussian Splatting 与表面网格,直接导出至 NVIDIA Isaac Sim 等物理引擎,为具身智能训练提供可交互的仿真环境。

阅读目录
  • Lyra 2.0是什么
  • Lyra 2.0的主要功能
  • Lyra 2.0的技术原理
  • 如何使用Lyra 2.0
  • Lyra 2.0的关键信息和使用要求
  • Lyra 2.0的核心优势
  • Lyra 2.0的项目地址
  • Lyra 2.0的同类竞品对比
  • Lyra 2.0的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Lyra 2.0

Lyra 2.0的主要功能

  • 长程 3D 一致视频生成:沿用户自定义相机轨迹生成数百帧的漫游视频,支持大视角变化与区域重访。
  • 空间记忆检索:基于每帧 3D 几何建立空间缓存,自动检索与目标视角最相关的历史帧作为条件。
  • 抗时间漂移生成:通过自增强训练策略,使模型在自回归推理中主动纠正误差累积,保持长期视觉一致性。
  • 交互式 3D 探索器:提供 GUI 可视化累积点云,用户可规划轨迹重访已探索区域或进入未观察区域。
  • 前馈 3D 重建:将生成视频通过微调的前馈模型重建为高保真 3D Gaussian Splatting 与表面网格。
  • 仿真资产导出:支持直接导出至 NVIDIA Isaac Sim 等物理引擎,用于机器人导航与交互训练。
  • 加速推理版本:提供基于分布匹配蒸馏的 4 步去噪学生模型,推理速度提升约 13 倍。

Lyra 2.0的技术原理

  • 生成式重建范式:结合相机控制视频扩散模型的视觉保真度与前馈 3D 重建技术,将单图+轨迹转化为可实时渲染的 3D 输出。
  • 解耦几何路由与外观合成:维护每帧独立 3D 缓存(深度图+点云),仅用于检索历史帧和建立密集 3D 对应关系;实际像素合成仍由视频扩散模型的生成先验完成,避免渲染伪影传播。
  • 规范坐标扭曲注入:将检索到的历史帧通过深度前向扭曲至目标视角,生成规范坐标图与深度图,经位置编码和 MLP 处理后注入 DiT 的自注意力层,提供精确几何对齐信号。
  • 自增强抗漂移训练:用概率将训练中的历史隐变量加噪并通过单步去噪替换为近似重建,迫使模型在条件不完美时仍能恢复干净目标,缩小训练-推理分布差异。
  • FramePack 上下文压缩:采用可变核 patchification 对时间历史进行压缩,近帧细粒度、远帧粗粒度,在固定 token 预算内扩展有效上下文窗口。
  • 微调前馈重建:基于 Depth Anything v3 改进高分辨率下的 Gaussian 预测密度,在 Lyra 2.0 生成数据上微调,提升对生成伪影的鲁棒性。

如何使用Lyra 2.0

  • 克隆仓库:从GitHub仓库拉取代码按 README 配置环境依赖。
  • 下载模型:从 Hugging Face 或项目页获取 Lyra 2.0 预训练权重。
  • 准备输入:提供单张场景图像,可选配文本提示引导生成风格。
  • 启动探索器:运行交互式 GUI 加载图像并规划相机漫游轨迹。
  • 迭代生成:系统自动检索空间记忆中的相关历史帧并逐段生成长程视频。
  • 重建 3D:调用微调的前馈模型将视频序列转为 3D Gaussian Splatting。
  • 提取网格:运行脚本输出表面 Mesh,支持分层稀疏网格提取。
  • 导出部署:将 3D 资产导入 NVIDIA Isaac Sim 等物理引擎进行具身智能训练。

Lyra 2.0的关键信息和使用要求

  • 项目定位:NVIDIA 推出的开源可探索生成式 3D 世界框架,支持从单张图像迭代构建持久、可漫游的大规模 3D 场景。
  • 核心技术:基于 Wan 2.1 VAE + DiT 的视频扩散模型,采用”检索-生成-更新”自回归循环;通过每帧独立 3D 几何缓存解决空间遗忘,通过自增强训练抑制时间漂移。
  • 输入输出:输入为单张 RGB 图像 + 可选文本提示 + 相机轨迹;输出为长程相机控制视频,可进一步重建为 3D Gaussian Splatting 与表面网格,支持导出至物理引擎。
  • 性能优化:提供基于分布匹配蒸馏的 4 步加速模型,推理速度提升约 13 倍。
  • 硬件环境:需配备 NVIDIA GPU(推荐高显存显卡以支持长视频生成与 3D 重建),CUDA 环境必备。
  • 软件依赖:PyTorch、diffusers、transformers、FramePack、Depth Anything V3、OpenVDB 等,具体版本以仓库 requirements.txt 为准。

Lyra 2.0的核心优势

  • 全局空间持久性:通过独立每帧几何缓存与可见性检索,解决长程生成中的空间遗忘问题,重访区域保持结构一致。
  • 长期视觉稳定性:自增强训练有效抑制自回归误差累积,相比基线显著减少颜色漂移与几何畸变。
  • 高质量 3D 输出:前馈重建模型针对生成数据微调,容忍轻微多视图不一致,产出干净连贯的 3DGS 与网格。
  • 交互可控:用户可实时规划任意长相机轨迹,系统渐进式扩展场景,非一次性黑盒生成。

Lyra 2.0的项目地址

  • 项目官网:https://research.nvidia.com/labs/sil/projects/lyra2/
  • GitHub仓库:https://github.com/nv-tlabs/lyra
  • HuggingFace模型库:https://huggingface.co/nvidia/Lyra-2.0
  • arXiv技术论文:https://arxiv.org/pdf/2604.13036

Lyra 2.0的同类竞品对比

维度 Lyra 2.0 GEN3C Wonderland
技术路线 视频生成 + 前馈 3D 重建,解耦几何路由与外观合成 视频生成 + 全局 3D 表示条件生成,紧耦合设计 相机控制视频扩散 + 专用前馈网络预测 3DGS
记忆机制 每帧独立 3D 缓存,仅用于信息路由与对应关系建立 累积全局点云/深度渲染图作为生成条件 无显式空间记忆,依赖视频模型自身时间上下文
长程一致性 支持数百帧大视角变化与区域重访,抗时间漂移 受限于全局 3D 表示质量,误差易放大 视角覆盖有限,长程一致性未重点解决
交互方式 显式相机轨迹规划 + 可选文本提示 显式相机轨迹 + 3D 条件 显式相机轨迹控制
输出格式 3D Gaussian Splatting + 表面网格,支持物理引擎导出 视频与 3D 输出 3D Gaussian Splatting
训练数据 DL3DV 真实场景长视频,自增强策略 未公开详细训练方案 未公开详细训练方案
推理效率 提供 4 步蒸馏模型,速度提升 13 倍 标准扩散采样 标准扩散采样

Lyra 2.0的应用场景

  • 具身智能仿真:为机器人训练生成可交互的 3D 室内/室外环境,替代高成本真实场景采集。
  • 虚拟世界构建:从单张概念图快速生成可漫游的游戏关卡或元宇宙场景原型。
  • 建筑与室内设计:基于平面图或效果图生成 3D walkthrough,支持客户沉浸式预览空间布局。
  • 影视预演制作:为导演提供从静态概念图到动态场景漫游的快速可视化方案。

📝 站长洞察 (Editor’s Insight)

英伟达开源Lyra 2.0,绝非一次简单的技术发布,而是其构建“物理AI”帝国的关键落子。它将视频生成的视觉逼真度与3D重建的几何严谨性解耦融合,通过‘检索-生成-更新’的智能循环,巧妙解决了长程生成中的空间遗忘与时间漂移难题。这意味着,AI不再只能‘看’视频,更能‘活’在一个由自己生成、且物理规则一致的3D空间里。这直接为具身智能训练扫清了最大障碍——海量、多样、可交互的训练环境。结合NVIDIA Isaac Sim,Lyra 2.0正将算力优势从‘渲染世界’延伸至‘创造世界’,其野心在于成为下一代AI的‘世界模拟器’基础。对于开发者而言,这不仅是工具,更是通往物理AI新范式的门票。

Kimi WebBridge深度解析:月之暗面如何用浏览器插件让AI Agent真正接管网页操作
RhetorAI
Whisper
RevMake AI
Multica开源AI Agent协作平台:让Claude Code、Codex成为你的团队正式成员
TAGGED:3D Gaussian Splatting3D生成NVIDIA具身智能视频扩散模型
分享
Email 复制链接 打印
Share
上一篇 yoyo:200行Rust启动的自我进化AI编程智能体,47天零人类提交破4万行代码|开源MIT
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

yoyo:200行Rust启动的自我进化AI编程智能体,47天零人类提交破4万行代码|开源MIT
AI 工具 AIGC 资讯
阿里通义重磅开源AgentScope Tuner:一站式自动优化引擎,让AI智能体越用越聪明
AI 工具 AIGC 资讯
DeepSeek-TUI 重磅发布:基于 Rust 的开源终端智能体,深度适配 DeepSeek V4 百万上下文模型
AI 工具 AIGC 资讯
腾讯开源手机端离线翻译模型:1.8B参数压缩至440MB,支持33种语言,性能超越谷歌翻译
AI 工具

相关推荐

AI 工具

DraftsAI

remaker
AI 工具AIGC 资讯

GPT-Realtime-2:OpenAI 第二代实时语音模型发布,GPT-5级推理能力定义AI语音Agent新高度

站外新闻
GPT-5 GPT-Realtime-2 openai 实时语音模型 语音Agent
AI 工具AIGC 资讯

WinClaw 龙虾永久免费 Token 限时抢!8000个名额领完即止,AI Agent 办公自动化全攻略

站外新闻
AI Agent Qwen 3.5 Token WinClaw 办公自动化
AI 工具AIGC 资讯

HeyGen开源HyperFrames:AI原生HTML视频渲染框架,用代码秒变AI视频生产力

站外新闻
AIGC AI视频 HeyGen HyperFrames 视频渲染框架
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

3D Agent AI AI Agent AIGC AI工具 AI智能体 AI生成内容 AI绘画 AI编程 AI编程工具 AI视频 AI设计 Anthropic chatgpt Claude Claude Code DALL-E3 DeepSeek Gemini GPT-5.5 meta Midjourney MoE MoE架构 NVIDIA openai Pika prompt runway Stability AI stable diffusion 世界模型 丛林 乐高 人像 人工智能 人物 具身智能 办公自动化 动物 咒语 图像生成模型 多模态 多模态大模型 大模型 大模型API 大语言模型 女性 字节跳动 室内设计 家居 局部重绘 展台 帅哥 建筑 建筑设计 开发者工具 开源 开源工具 开源平台 开源框架 开源模型 强化学习 微摄影 微软 怪物 提示词 摄影 教程 新加坡 新闻 日本排放核污水 早报 智能体 水果 海报设计 清华大学 游戏 游戏美术 玻璃 破碎 科幻 窗 美食 背景 腾讯混元 芭比 英伟达 视频编辑 赛博朋克 超现实主义 运动 阶跃星辰 阿里通义 阿里通义千问 风景 食物 香水 马斯克
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.