Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 谷歌 Deepmind 发布首个生成式交互环境模型 Genie [译]
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > 强化 AI 学习 > 谷歌 Deepmind 发布首个生成式交互环境模型 Genie [译]
强化 AI 学习

谷歌 Deepmind 发布首个生成式交互环境模型 Genie [译]

宝玉的分享
最近更新: 2026年5月23日 下午6:23
SHARE

我非常激动地分享 @Google DeepMind 开放创新团队的最新进展 🚀。我们推出了 Genie 🧞,这是一个从互联网视频中学习而来的创新世界模型,能够根据图像提示创造出无限种可操作的 2D 世界。

与其加入先验偏见,我们更加注重扩大规模。我们利用了一个包含超过 20 万小时的 2D 平台游戏视频的巨大数据集,训练出了一个拥有 110 亿参数的世界模型。Genie 能够以无监督的方式学习各种潜在动作,从而以一种连贯的方式控制角色。

我们的模型能够将任意图像转化为一个可以互动的 2D 世界。例如,Genie 能够赋予人类设计的草图新的生命,就像来自两位史上最年轻的世界创造者 Seneca 和 Caspian 的精美艺术作品一样。

Genie 学习到的动作空间不仅丰富多彩、一致性强,还易于理解。人们在尝试几次后,通常能够将其与具有语义意义的动作(比如向左走、向右走、跳跃等)相对应。

必须承认,@OpenAI 的 Sora 实在是太震撼了,其视觉效果令人赞叹,但正如 @yanlecun 所强调的,一个世界模型必须要有“动作”才行。Genie 不仅是一个能够控制动作的世界模型,而且它是完全通过视频学习而来的,不依赖任何监督。那我们是怎么做到的呢?

关于什么是世界模型,人们有许多不同的理解。以下是我的定义:

考虑以下几点:

  • 观测值 x(t)
  • 对世界状态的先前估计 s(t)
  • 行动建议 a(t)
  • 潜在变量建议 z(t)

世界模型的计算过程如下:

  • 表征:h(t) = 编码器 (Enc)(x(t))
  • 预测:下一状态 s(t+1) = 预测器 (Pred)(h(t), s(t), z(t), a(t))

其中:

  • 编码器 (Enc) 是一种编码功能(可训练的确定性函数,如神经网络)
  • 预测器 (Pred) 负责预测隐藏状态(同样是可训练的确定性函数)
  • 潜在变量 z(t) 代表能够精确预测未来发生事件的未知信息。它需要从一定的分布中采样或在一定集合中变动,为一系列可能的预测设定参数。

关键在于,通过观察三元组 (x(t), a(t), x(t+1)) 来训练整个模型,同时避免编码器退化到一个忽略输入的简单解决方案。

在自回归生成模型(如大语言模型 LLMs)中,情况稍微简单些,其中:

  1. 编码器是恒等函数:h(t) = x(t)
  2. 状态是过去输入的序列
  3. 不包含行动变量 a(t)
  4. x(t) 是离散的
  5. 预测器计算下一状态 x(t+1) 的可能结果,并利用潜变量 z(t) 从中选择一个具体值。

这种情况下的方程简化为:
s(t) = [x(t), x(t-1), …, x(t-k)]
x(t+1) = 预测器 (Pred)(s(t), z(t), a(t))
在这种情况下,不会出现退化问题。

— BY Yann LeCun @ylecun https://twitter.com/ylecun/status/1759933365241921817

我们开发了一种具备时间感知能力的视频分词器,它能将视频压缩成离散标记,采用一个潜在行动模型来描述两帧之间的转换,这一转换被编码为八种潜在行动之一,以及一个 MaskGIT 动力学模型来预测未来的帧。

这里的关键还是数据和计算能力!我们训练了一个分类器,以筛选出高质量的视频子集,并进行了规模实验,结果显示模型性能随着参数数量和批次大小的增加而稳定提升。我们最终的模型达到了 110 亿参数量。

Genie 的模型具有广泛的通用性,不仅仅局限于二维空间。我们还对机器人数据集 (RT-1) 进行了 Genie 训练,尽管其中不包含任何具体的动作数据,我们也成功展示了如何学习到一个可以控制动作的仿真器。我们认为,这是向着为通用人工智能 (AGI) 构建全面世界模型迈出的一大步。

Genie 项目是一个由 Jake Bruce、Michael Dennis、Ashley Edwards、Jack Parker-Holder、Yuge Shi (Jimmy)、Edward Hughes、Matthew Lai、Aditi Mavalankar、Richie Steigerwald 等人共同努力的成果,是一个团队协作的典范。

特别感谢 Ashley、Jack 和 Jake 在项目中展现出的杰出领导力!如果您对 Genie 有进一步的兴趣,欢迎查阅我们的论文和官网。详见下方链接:

  • 论文:arxiv.org/abs/2402.15391
  • 官网:sites.google.com/view/genie-2024

在开放世界中的通用智能体 [译]
风险管理不是项目管理 [译]
AI 规模化的可行性:探索和辩论 [译]
为何你应该计划完成更少的任务 [译]
人工智能迎战数学奥林匹克的新挑战 [译]
分享
Email 复制链接 打印
Share
上一篇 微软为 iPhone 举行的葬礼 Gemini 与 Google 的文化观 [译]
下一篇 为什么随着年龄增长,我们感觉时间似乎流逝得更快 [译]
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

全息流体渐变通用占位特色图
听听乱码就被“洗劫”?谷歌 Gemini 语音助理爆潜伏漏洞,黑客用特殊通知给 AI “下毒”
AIGC 资讯
告别低效教学!知达 AI 用全闭环智能工具重构教育生产力
AIGC 资讯
压轴题全押错?AI军团折戟 2026 高考作文,教育部发声反炒作
AIGC 资讯
C盘空间瞬间释放4GB!谷歌浏览器终于服软,新版 Chrome 允许彻底禁用并删除本地 AI 大模型
AIGC 资讯

相关推荐

强化 AI 学习

黃仁勳旋風席捲台灣 方念華獨家專訪!

宝玉的分享
表 4:在 WMT-21 的英 - 俄测试中,
强化 AI 学习

深入分析 GPTs 在机器翻译中的上下文学习[译]

宝玉的分享
强化 AI 学习

他人即地狱:大型科技公司的绩效管理 [译]

宝玉的分享
图片说明:Uber 示例
强化 AI 学习

微服务的“死亡千刃” [译]

宝玉的分享
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.