Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Prometheus – 浙大联合蚂蚁等高校推出的3D感知潜在扩散模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Prometheus – 浙大联合蚂蚁等高校推出的3D感知潜在扩散模型
AIGC 资讯

Prometheus – 浙大联合蚂蚁等高校推出的3D感知潜在扩散模型

站外新闻
最近更新: 2026年6月9日 上午3:16
SHARE

Prometheus是什么

Prometheus是创新的3D感知潜在扩散模型,专门用于快速生成文本到3D场景的内容。能在几秒钟内完成对象和场景级别的3D生成,同时保持高质量的输出和良好的泛化能力。核心在于基于2D先验知识来驱动高效且可泛化的3D合成过程。通过将3D场景生成表述为多视图、前馈、像素对齐的3D高斯生成过程,在潜在扩散范式内进行操作,Prometheus能有效地从文本描述中生成具有丰富细节和准确几何结构的3D场景。基于预训练的文本到图像生成模型进行微调,引入RGB-D潜在空间来解耦外观和几何信息,提升生成的保真度和几何质量。

阅读目录
  • Prometheus是什么
  • Prometheus的主要功能
  • Prometheus的技术原理
  • Prometheus的项目地址
  • Prometheus的应用场景

Prometheus的主要功能

  • 高效的3D生成:能在几秒钟内生成复杂的3D场景,包括对象和整个场景级别,提高3D内容创作的效率。
  • 高质量输出:生成的3D场景在视觉保真度和几何质量上表现出色,能准确地反映文本描述中的细节和背景信息。
  • 良好的泛化能力:通过在大规模单视图和多视图数据集上进行训练,Prometheus能泛化到各种不同的3D对象和场景,具有与Stable Diffusion相当的泛化能力。
  • 多视图一致性:生成的3D场景在多视图下保持一致性,在大旋转或极端视角下也能保持稳定的视觉效果。
  • 文本到3D的对齐:生成的3D场景能准确地与输入的文本提示对齐,确保生成的内容符合用户的描述和期望。

Prometheus的技术原理

  • 两阶段训练框架
    • 第一阶段:3D高斯变分自编码器(GS-VAE)使用预训练的图像编码器(如Stable Diffusion的编码器)将RGB图像和预测的单目深度图编码到潜在空间。通过多视图Transformer整合跨视图信息,并注入相机姿态信息。将融合后的隐空间变量解码为像素对齐的3D高斯场景。像素对齐的3D高斯场景,作为场景级别的表示。
    • 第二阶段:多视图潜在扩散模型(MV-LDM)通过去噪扩散过程,联合预测多视图RGB-D潜在空间代码,条件为相机姿态和文本提示。从随机采样的高斯噪声开始,通过迭代去噪过程恢复多视图隐空间编码。多视图RGB-D潜在空间代码,用于生成最终的3D场景。
  • RGB-D潜在空间的引入:Prometheus引入RGB-D潜在空间,将外观(RGB)和几何信息(D)解耦,提升生成的保真度和几何质量。模型能更高效地生成3D高斯,同时保持高质量的视觉效果。
  • 前馈生成策略:Prometheus采用前馈生成策略,相比传统的优化方法,减少了生成时间,提高了生成效率。通过从潜在空间中采样多视图RGB-D潜在空间代码,使用GS-VAE解码器解码为3D高斯场景,实现了快速且高质量的3D场景生成。
  • 无分类器引导(CFG):为了确保生成的3D场景与文本提示对齐,Prometheus使用无分类器引导(CFG)来引导多视图生成过程。通过调整引导强度,平衡多视图一致性和保真度,避免生成结果中的多视图不一致问题。
  • 大规模数据集训练:Prometheus在大规模单视图和多视图数据集上进行训练,确保模型具有良好的泛化能力。数据集包括多种场景类型,如对象中心、室内、室外和驾驶场景,文本提示由多模态大语言模型生成。
  • 损失函数:在训练过程中,Prometheus使用多种损失函数,包括均方误差(MSE)损失、感知损失和尺度不变深度损失,确保生成的3D场景在视觉和几何上与输入图像和深度图对齐。

Prometheus的项目地址

  • 项目官网:https://freemty.github.io/project-prometheus
  • arXiv技术论文:https://arxiv.org/pdf/2412.21117

Prometheus的应用场景

  • 内容创作:快速生成逼真的3D场景和对象,用于VR和AR应用中的虚拟环境构建。例如,创建虚拟展览、虚拟旅游、虚拟教育场景等。
  • 实时交互:在VR和AR应用中,用户可以通过文本输入实时生成和修改3D场景,增强交互体验。
  • 场景设计:快速生成游戏中的各种场景,如城市、森林、沙漠等,提高游戏开发效率。开发者可以通过简单的文本描述生成复杂的3D环境,减少手动建模的时间和成本。
  • 概念设计:建筑师和室内设计师可以使用Prometheus快速生成建筑和室内设计的3D模型,用于初步设计和客户展示。通过文本描述,快速生成不同风格和布局的3D场景,提高设计效率。
  • 虚拟展示:生成的3D场景可以用于虚拟展示,客户可以通过VR设备沉浸式地体验设计效果,提供更直观的反馈。
“聊天已死”?OpenAI 秘密推进 ChatGPT 重大改版,拟打造全能“超级应用”
免费开源!Pascal Editor:AI驱动浏览器3D建筑编辑器,支持WebGPU高性能渲染与双视图联动
估值110亿!智能戒指龙头Oura秘密提交IPO,AI驱动预防医学赛道迎来里程碑
unsloth – 开源的大语言模型微调工具
HunyuanCustom – 腾讯混元开源的多模态定制视频生成框架
分享
Email 复制链接 打印
Share
上一篇 Step1X-3D – 阶跃星辰联合LightIllusions开源的3D资产生成框架
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Step1X-3D – 阶跃星辰联合LightIllusions开源的3D资产生成框架
AIGC 资讯
FantasyID – 阿里联合北邮大学推出的身份保持视频生成框架
AIGC 资讯
AutoRAG – 中科院开源的自主迭代检索模型
AIGC 资讯
AnyCharV – 港中文联合清华等机构推出的角色可控视频生成框架
AIGC 资讯

相关推荐

AIGC 资讯

Video-T1 – 清华联合腾讯推出的视频生成技术

站外新闻
AIGC 资讯

II-Agent – Intelligent Internet开源的通用AI Agent框架

站外新闻
AI 工具AIGC 资讯

明略科技开源Mano-P 1.0:纯视觉GUI智能体模型,OSWorld霸榜,端侧本地部署重塑自动化

站外新闻
GUI-VLA智能体 Mano-P 1.0 明略科技 端侧部署 纯视觉理解
AIGC 资讯最新趋势

12岁孩童用眉笔画胡子破解AI年龄验证:轻量级模型的技术漏洞引发行业警示

站外新闻
AI模型 年龄验证 技术漏洞 隐私保护 面部识别
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.