Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: MineWorld – 微软研究院开源的实时交互式世界模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > MineWorld – 微软研究院开源的实时交互式世界模型
AIGC 资讯

MineWorld – 微软研究院开源的实时交互式世界模型

站外新闻
最近更新: 2026年6月8日 下午12:32
SHARE

MineWorld是什么

MineWorld是微软研究院开源的基于《我的世界》(Minecraft)的实时交互式世界模型,基于视觉-动作自回归Transformer架构,将游戏场景和动作转化为离散的token ID,通过下一个token预测进行训练。模型开发了并行解码算法,可实现每秒4至7帧的生成速度,支持实时互动。MineWorld在视频质量、可控性和推理速度上均优于现有模型,如Oasis。

阅读目录
  • MineWorld是什么
  • MineWorld的主要功能
  • MineWorld的技术原理
  • MineWorld的项目地址
  • MineWorld的应用场景

MineWorld

MineWorld的主要功能

  • 高生成质量:基于视觉-动作自回归 Transformer,MineWorld 能根据视觉和动作生成连贯、高保真的游戏帧。
  • 强可控性:模型通过动作跟随能力的基准测试,展现出精确且一致的行为,能根据输入动作生成准确的游戏场景。
  • 快速推理速度:采用并行解码算法,使模型能以每秒 4 至 7 帧的速度生成图像,支持实时互动。
  • 作为游戏代理:MineWorld 在训练过程中同时预测游戏状态和动作,可以作为独立的游戏代理自主进行游戏。
  • 实时交互能力:用户可以通过 Web 演示或本地运行与模型进行实时互动,选择初始帧、控制相机移动并执行游戏动作。

MineWorld的技术原理

  • 视觉-动作自回归 Transformer:MineWorld 通过将游戏场景和玩家动作转化为离散的 token 序列,实现视觉和动作的联合建模。具体来说:
    • 图像标记器(Visual Tokenizer):采用 VQ-VAE 架构,将游戏场景分割为离散的视觉标记。标记器从预训练的检查点开始,在 Minecraft 数据集上进行微调,实现高质量的图像重建。
    • 动作标记器(Action Tokenizer):将玩家的连续动作(如鼠标移动)量化为离散的标记,将离散动作(如前进、攻击)归类为不同的类别,每个类别由唯一的标记表示。
    • Transformer 解码器:采用 LLaMA 架构,接收交错拼接的视觉标记和动作标记序列作为输入,通过下一个标记预测进行训练。解码器能同时学习游戏状态的丰富表示以及状态和动作之间的条件关系。
  • 并行解码算法:为了实现实时交互,MineWorld 开发了一种并行解码算法。算法利用相邻图像标记之间的空间依赖性,同时预测每帧中的空间冗余标记。与传统的自回归解码算法相比,能显著提升生成速度,使模型能在不同规模下达到每秒 4 至 7 帧的生成速度。
  • 训练:模型通过下一个标记预测进行训练,学习游戏状态之间的动态演变规律以及动作与状态之间的关联。
  • 推理:在推理阶段,模型根据输入的当前游戏状态和动作,生成后续的游戏场景。并行解码算法的应用使得模型能快速生成高质量的游戏帧。
  • 评估指标:MineWorld 提出了新的评估指标,评估生成场景的视觉质量,动作跟随能力。例如,通过比较生成场景中预测的动作与输入的真实动作之间的准确性,来量化模型的可控性。

MineWorld的项目地址

  • Github仓库:https://github.com/microsoft/MineWorld
  • HuggingFace模型库:https://huggingface.co/microsoft/mineworld
  • arXiv技术论文:https://arxiv.org/pdf/2504.08388

MineWorld的应用场景

  • 具身智能研究:MineWorld 提供了一个高保真、可交互的虚拟环境,能模拟复杂的物理规则和动态场景,非常适合用于具身智能的研究。研究人员可以用模型训练智能体,学习如何在虚拟环境中执行任务,如物体定位导航、环境探索等。
  • 强化学习训练:MineWorld 的实时交互能力和高生成质量使其成为强化学习训练的理想平台。研究人员可以用模型快速生成大量的训练数据,帮助智能体在模拟环境中学习最优策略。
  • 游戏代理开发:由于 MineWorld 在训练过程中同时预测游戏状态和动作,具备作为游戏代理的潜力。给定初始游戏状态和动作,模型可以迭代生成未来的状态和动作,模拟长期的游戏过程。
  • 实时交互式模拟:MineWorld 的快速推理速度(每秒 4 至 7 帧)能支持与游戏玩家的实时交互。
  • 视频生成与编辑:MineWorld 能生成高质量、连贯一致的游戏视频。可以用于视频内容创作,例如生成游戏预告片、教学视频等。
SWE-1 – Windsurf推出的首个软件工程 AI 模型系列
AIGC 行业现状
Qwen3 – 阿里通义开源的新一代混合推理模型系列
Devstral – Mistral AI联合All Hands AI开源的编程专用AI模型
Meta AI 聊天机器人订阅服务正式上线:月费低至7.99美元,高级版仅19.99美元,引领AI消费商业化浪潮
分享
Email 复制链接 打印
Share
上一篇 AvatarGO – 南洋理工联合上海 AI Lab 等推出的4D人体与物体交互生成框架
下一篇 Kimi Latest – Kimi推出的实时更新AI模型,与Kimi智能助手同步
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Kimi Latest – Kimi推出的实时更新AI模型,与Kimi智能助手同步
AIGC 资讯
AvatarGO – 南洋理工联合上海 AI Lab 等推出的4D人体与物体交互生成框架
AIGC 资讯
R1-Omni – 阿里通义开源的全模态大语言模型
AIGC 资讯
FlexiAct – 清华联合腾讯推出的动作迁移模型
AIGC 资讯

相关推荐

AI 工具AIGC 资讯

港股团队开源AI金融工作空间!74项技能+29个智能体,用自然语言生成可执行策略,覆盖A股、美股、加密货币全市场

站外新闻
AI金融 多智能体 开源工具 量化交易 香港大学
流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

Spotify CEO公开辩护AI音乐战略:以正版授权对抗盗版与AI垃圾内容泛滥

站外新闻
AIGC AI音乐 Spotify 版权授权 环球音乐集团
AIGC 资讯

MiniMax全球客户破百万,B端ARR两个月翻番,揭示大模型商业化的爆发临界点

站外新闻
AIGC商业化 ARR MiniMax 企业客户
AI 工具AIGC 资讯

阿里Qwen3.5-Omni全模态大模型发布:215项SOTA霸榜,超越Gemini-3.1 Pro,开启Vibe Coding新纪元

站外新闻
Gemini-3.1 Pro Qwen3.5-Omni Vibe Coding 全模态大模型 阿里通义
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.