Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 谢赛宁团队开源Solaris:首个多人视频世界生成模型,突破AI世界模拟新边界
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 谢赛宁团队开源Solaris:首个多人视频世界生成模型,突破AI世界模拟新边界
AI 工具AIGC 资讯

谢赛宁团队开源Solaris:首个多人视频世界生成模型,突破AI世界模拟新边界

站外新闻
最近更新: 2026年6月7日 下午8:04
Minecraft 世界模型 具身智能 多智能体 视频生成
SHARE

💡 站外导读:当前AI世界模型主要局限于单人视角,难以模拟多人交互的复杂动态,这严重制约了具身智能训练与多智能体协作研究。谢赛宁团队开源的Solaris模型,作为首个多人视频世界生成系统,在Minecraft中实现了双玩家第一人称视角的同步生成,确保跨视角空间一致性。该突破性进展将为AI世界模拟、游戏AI开发及机器人训练提供全新的高质量合成数据解决方案。

Solaris是什么

Solaris是首个多人视频世界生成模型,能在Minecraft中同时生成两个玩家一致的第一人称视角。模型突破现有模型仅支持单玩家的局限,确保跨玩家视角的空间一致性——当一个玩家建造或移动时,另一视角同步反映变化。团队自研了SolarisEngine数据系统,收集1260万帧多人游戏数据,创新推出Checkpointed Self Forcing训练方法解决长序列内存瓶颈。

阅读目录
  • Solaris是什么
  • Solaris的主要功能
  • Solaris的技术原理
  • Solaris的项目地址
  • Solaris的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Solaris

Solaris的主要功能

  • 多人视角同步生成:Solaris能同时为两位玩家生成一致的第一人称视频,确保跨玩家视角的空间一致性,当一个玩家执行动作时另一玩家的视角会实时反映变化。
  • 长时序稳定生成:通过Checkpointed Self Forcing技术,Solaris可生成长达224帧(11.2秒)的稳定视频序列,有效避免误差累积导致的视觉退化。
  • 动作条件控制:模型接受完整的Minecraft动作输入(包括移动、相机、挖掘、放置等),生成的视频严格遵循给定的动作序列。
  • 复杂动态模拟:Solaris能模拟背包状态同步、天气变化、物理建造破坏、PvP战斗等复杂游戏动态。

Solaris的技术原理

  • 多人DiT架构:基于MatrixGame 2.0的单玩家扩散Transformer,通过扩展动作空间支持完整Minecraft输入,引入跨玩家自注意力层实现双玩家信息交换,添加玩家ID嵌入以区分不同视角,其余模块(交叉注意力、FFN)保持单玩家设置不变。
  • 四阶段渐进训练:从单玩家预训练权重出发,在VPT数据集上微调适配Minecraft动作空间,再切换到多人数据训练双向模型作为教师,因果化为滑动窗口生成器,通过Checkpointed Self Forcing实现长序列稳定生成。
  • Checkpointed Self Forcing:为解决滑动窗口自回归的内存瓶颈,该方法先无梯度生成并缓存干净帧与噪声状态,通过自定义注意力掩码单次并行重计算,严格复现滑动窗口依赖关系,将内存从O(Lt​⋅Ls​) 降至O(Lt​) ,同时支持KV缓存梯度回传提升生成质量。
  • SolarisEngine数据系统:针对现有框架缺乏多人支持的问题,团队构建基于Mineflayer的控制器与官方Minecraft客户端的相机分离架构,通过服务器插件实时同步状态,用Docker容器化实现并行扩展与故障自动恢复,最终收集1260万帧动作标注的多人游戏数据。

Solaris的项目地址

  • 项目官网:https://solaris-wm.github.io/
  • GitHub仓库:https://github.com/solaris-wm/solaris
  • HuggingFace模型库:https://huggingface.co/collections/nyu-visionx/solaris-models
  • arXiv技术论文:https://arxiv.org/pdf/2602.22208

Solaris的应用场景

  • 具身智能训练与评估:作为多智能体世界模拟器,为机器人和游戏AI提供合成训练数据,支持策略学习、推理时规划及安全评估,避免在真实环境中试错的高昂成本。
  • 多智能体协作研究:模拟多人协同任务(如共同建造、团队战斗),用于训练AI代理的协作与通信能力,研究 emergent 行为和社会智能。
  • 视觉-语言-动作模型开发:模型能生成大规模多视角视频-动作-语言对齐数据,支持VLA模型的预训练与微调,弥补真实人类多人交互数据的稀缺性。
  • 3D场景理解与空间推理基准:作为可控测试平台,评估模型在视角一致性、物体持久性、空间记忆等核心3D理解能力上的表现。

📝 站长洞察 (Editor’s Insight)

Solaris的发布标志着世界模型从“单人叙事”迈入“多人交互”时代,这是AI理解物理世界复杂性的关键一跃。其创新的跨玩家注意力机制与长序列训练方法,解决了多视角一致性与内存瓶颈的核心难题。从产业视角看,这直接赋能具身智能与多智能体系统的训练范式变革——未来自动驾驶的协同决策、工业机器人的协作、乃至虚拟社交环境的构建,都将受益于这种高保真的多人世界模拟器。团队自研数据闭环系统,也凸显了高质量、可控数据在AI创新中的基石作用。此工作不仅推动技术前沿,更预示着‘合成数据驱动AI进化’的范式正在加速成型。

​AI 音乐创作新趋势:杭州男子月入十几万,40 秒生成一首歌
Command A+ – Cohere Labs 开源的多模态大模型
MiniCPM-V 4.6 震撼发布:1.3B参数端侧多模态大模型,手机离线跑,隐私与效率兼得
Toonflow – 开源的一站式 AI 短剧创作工具
Pad.ws – 在线AI开发工具,白板功能与代码编辑器深度结合
TAGGED:Minecraft世界模型具身智能多智能体视频生成
分享
Email 复制链接 打印
Share
上一篇 Clawith:企业级开源多智能体协作框架,让AI数字员工深度融入团队协作
下一篇 上海AI Lab开源InternVL-U:4B参数轻量化多模态模型,实现理解-推理-生成-编辑端到端闭环
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

流光脑波AI大脑占位特色图
2026年3月美国AI榜单巨变:Claude单月狂飙130%紧追ChatGPT,格局突变信号已现
AIGC 资讯 最新趋势
得物实战揭秘:AI Coding工具如何突破数仓开发’失忆’痛点,Harness工程引领新范式
AI 工具 AIGC 资讯
全息流体渐变通用占位特色图
历史性和解!Meta妥协规避审判,美国首例学校诉社交媒体成瘾案落幕,揭示行业司法风向
AIGC 资讯
量子芯片科技感占位特色图
Spotify与环球音乐联手:AI翻唱混音工具上线,正版版权终结Suno野蛮生长
AI 工具 AIGC 资讯 最新趋势

相关推荐

AIGC 资讯

X-Fusion – 加州大学联合Adobe等机构推出的多模态融合框架

站外新闻
AI 工具

Create AI Voiceovers

remaker
流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

科大讯飞发布AI眼镜:40克超轻机身+星火大模型,掀起百镜大战新浪潮

站外新闻
AI眼镜 星火大模型 百镜大战 科大讯飞 轻量化交互
AIGC 资讯

Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 轻量级模型 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.