Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: MineWorld – 微软研究院开源的实时交互式世界模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > MineWorld – 微软研究院开源的实时交互式世界模型
AIGC 资讯

MineWorld – 微软研究院开源的实时交互式世界模型

站外新闻
最近更新: 2026年6月8日 下午12:32
SHARE

MineWorld是什么

MineWorld是微软研究院开源的基于《我的世界》(Minecraft)的实时交互式世界模型,基于视觉-动作自回归Transformer架构,将游戏场景和动作转化为离散的token ID,通过下一个token预测进行训练。模型开发了并行解码算法,可实现每秒4至7帧的生成速度,支持实时互动。MineWorld在视频质量、可控性和推理速度上均优于现有模型,如Oasis。

阅读目录
  • MineWorld是什么
  • MineWorld的主要功能
  • MineWorld的技术原理
  • MineWorld的项目地址
  • MineWorld的应用场景

MineWorld

MineWorld的主要功能

  • 高生成质量:基于视觉-动作自回归 Transformer,MineWorld 能根据视觉和动作生成连贯、高保真的游戏帧。
  • 强可控性:模型通过动作跟随能力的基准测试,展现出精确且一致的行为,能根据输入动作生成准确的游戏场景。
  • 快速推理速度:采用并行解码算法,使模型能以每秒 4 至 7 帧的速度生成图像,支持实时互动。
  • 作为游戏代理:MineWorld 在训练过程中同时预测游戏状态和动作,可以作为独立的游戏代理自主进行游戏。
  • 实时交互能力:用户可以通过 Web 演示或本地运行与模型进行实时互动,选择初始帧、控制相机移动并执行游戏动作。

MineWorld的技术原理

  • 视觉-动作自回归 Transformer:MineWorld 通过将游戏场景和玩家动作转化为离散的 token 序列,实现视觉和动作的联合建模。具体来说:
    • 图像标记器(Visual Tokenizer):采用 VQ-VAE 架构,将游戏场景分割为离散的视觉标记。标记器从预训练的检查点开始,在 Minecraft 数据集上进行微调,实现高质量的图像重建。
    • 动作标记器(Action Tokenizer):将玩家的连续动作(如鼠标移动)量化为离散的标记,将离散动作(如前进、攻击)归类为不同的类别,每个类别由唯一的标记表示。
    • Transformer 解码器:采用 LLaMA 架构,接收交错拼接的视觉标记和动作标记序列作为输入,通过下一个标记预测进行训练。解码器能同时学习游戏状态的丰富表示以及状态和动作之间的条件关系。
  • 并行解码算法:为了实现实时交互,MineWorld 开发了一种并行解码算法。算法利用相邻图像标记之间的空间依赖性,同时预测每帧中的空间冗余标记。与传统的自回归解码算法相比,能显著提升生成速度,使模型能在不同规模下达到每秒 4 至 7 帧的生成速度。
  • 训练:模型通过下一个标记预测进行训练,学习游戏状态之间的动态演变规律以及动作与状态之间的关联。
  • 推理:在推理阶段,模型根据输入的当前游戏状态和动作,生成后续的游戏场景。并行解码算法的应用使得模型能快速生成高质量的游戏帧。
  • 评估指标:MineWorld 提出了新的评估指标,评估生成场景的视觉质量,动作跟随能力。例如,通过比较生成场景中预测的动作与输入的真实动作之间的准确性,来量化模型的可控性。

MineWorld的项目地址

  • Github仓库:https://github.com/microsoft/MineWorld
  • HuggingFace模型库:https://huggingface.co/microsoft/mineworld
  • arXiv技术论文:https://arxiv.org/pdf/2504.08388

MineWorld的应用场景

  • 具身智能研究:MineWorld 提供了一个高保真、可交互的虚拟环境,能模拟复杂的物理规则和动态场景,非常适合用于具身智能的研究。研究人员可以用模型训练智能体,学习如何在虚拟环境中执行任务,如物体定位导航、环境探索等。
  • 强化学习训练:MineWorld 的实时交互能力和高生成质量使其成为强化学习训练的理想平台。研究人员可以用模型快速生成大量的训练数据,帮助智能体在模拟环境中学习最优策略。
  • 游戏代理开发:由于 MineWorld 在训练过程中同时预测游戏状态和动作,具备作为游戏代理的潜力。给定初始游戏状态和动作,模型可以迭代生成未来的状态和动作,模拟长期的游戏过程。
  • 实时交互式模拟:MineWorld 的快速推理速度(每秒 4 至 7 帧)能支持与游戏玩家的实时交互。
  • 视频生成与编辑:MineWorld 能生成高质量、连贯一致的游戏视频。可以用于视频内容创作,例如生成游戏预告片、教学视频等。
Gemini 2.5 Pro – 谷歌推出的最新 AI 思考模型
阿里联合高校开源Live Avatar:140亿参数实时数字人模型,20FPS流式生成无限时长视频
Fara1.5 – 微软推出的浏览器端 AI 智能体模型系列
Chinese-LiPS – 智源研究院联合南大开源的中文多模态语音识别数据集
Gemini 3.5 Flash深度解析:Google发布速度提升4倍、成本减半的AI Agent新王者
分享
Email 复制链接 打印
Share
上一篇 AvatarGO – 南洋理工联合上海 AI Lab 等推出的4D人体与物体交互生成框架
下一篇 Kimi Latest – Kimi推出的实时更新AI模型,与Kimi智能助手同步
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Self Forcing: Adobe与德克萨斯大学联合推出实时视频生成模型,单GPU实现17FPS,告别传统AI视频生成延迟
AI 工具 AIGC 资讯
腾讯AI Lab重磅开源SongGeneration:AI音乐生成大模型,多轨合成、风格克隆,媲美商业模型
AI 工具 AIGC 资讯
快手OneRec:颠覆传统推荐!端到端生成式AI系统引爆观看时长与GMV
AI 工具 AIGC 资讯
Kimi-Researcher:月之暗面端到端强化学习Agent,深度研究基准测试超Claude 4 Opus
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

月之暗面Kimi K2模型开源:万亿参数MoE架构,代码与Agent能力超越主流开源模型

站外新闻
Agent能力 Kimi K2 MoE模型 代码生成 开源大模型
AI 工具AIGC 资讯

Arrow 1.0:Quiver AI发布全球首款SVG原生AI模型,矢量图形生成进入新纪元

站外新闻
AIGC AI生成模型 Quiver AI SVG 矢量图形
AI 工具AIGC 资讯

B站重磅开源IndexTTS2:全球首个精准时长控制TTS模型,零样本情感克隆多语言语音合成

站外新闻
AIGC B站开源 TTS模型 声音克隆 文本转语音
AIGC 资讯

HoloTime – 北大联合鹏城实验室推出的全景4D场景生成框架

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.