Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 谢赛宁团队开源Solaris:首个多人视频世界生成模型,突破AI世界模拟新边界
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 谢赛宁团队开源Solaris:首个多人视频世界生成模型,突破AI世界模拟新边界
AI 工具AIGC 资讯

谢赛宁团队开源Solaris:首个多人视频世界生成模型,突破AI世界模拟新边界

站外新闻
最近更新: 2026年6月7日 下午8:04
Minecraft 世界模型 具身智能 多智能体 视频生成
SHARE

💡 站外导读:当前AI世界模型主要局限于单人视角,难以模拟多人交互的复杂动态,这严重制约了具身智能训练与多智能体协作研究。谢赛宁团队开源的Solaris模型,作为首个多人视频世界生成系统,在Minecraft中实现了双玩家第一人称视角的同步生成,确保跨视角空间一致性。该突破性进展将为AI世界模拟、游戏AI开发及机器人训练提供全新的高质量合成数据解决方案。

Solaris是什么

Solaris是首个多人视频世界生成模型,能在Minecraft中同时生成两个玩家一致的第一人称视角。模型突破现有模型仅支持单玩家的局限,确保跨玩家视角的空间一致性——当一个玩家建造或移动时,另一视角同步反映变化。团队自研了SolarisEngine数据系统,收集1260万帧多人游戏数据,创新推出Checkpointed Self Forcing训练方法解决长序列内存瓶颈。

阅读目录
  • Solaris是什么
  • Solaris的主要功能
  • Solaris的技术原理
  • Solaris的项目地址
  • Solaris的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Solaris

Solaris的主要功能

  • 多人视角同步生成:Solaris能同时为两位玩家生成一致的第一人称视频,确保跨玩家视角的空间一致性,当一个玩家执行动作时另一玩家的视角会实时反映变化。
  • 长时序稳定生成:通过Checkpointed Self Forcing技术,Solaris可生成长达224帧(11.2秒)的稳定视频序列,有效避免误差累积导致的视觉退化。
  • 动作条件控制:模型接受完整的Minecraft动作输入(包括移动、相机、挖掘、放置等),生成的视频严格遵循给定的动作序列。
  • 复杂动态模拟:Solaris能模拟背包状态同步、天气变化、物理建造破坏、PvP战斗等复杂游戏动态。

Solaris的技术原理

  • 多人DiT架构:基于MatrixGame 2.0的单玩家扩散Transformer,通过扩展动作空间支持完整Minecraft输入,引入跨玩家自注意力层实现双玩家信息交换,添加玩家ID嵌入以区分不同视角,其余模块(交叉注意力、FFN)保持单玩家设置不变。
  • 四阶段渐进训练:从单玩家预训练权重出发,在VPT数据集上微调适配Minecraft动作空间,再切换到多人数据训练双向模型作为教师,因果化为滑动窗口生成器,通过Checkpointed Self Forcing实现长序列稳定生成。
  • Checkpointed Self Forcing:为解决滑动窗口自回归的内存瓶颈,该方法先无梯度生成并缓存干净帧与噪声状态,通过自定义注意力掩码单次并行重计算,严格复现滑动窗口依赖关系,将内存从O(Lt​⋅Ls​) 降至O(Lt​) ,同时支持KV缓存梯度回传提升生成质量。
  • SolarisEngine数据系统:针对现有框架缺乏多人支持的问题,团队构建基于Mineflayer的控制器与官方Minecraft客户端的相机分离架构,通过服务器插件实时同步状态,用Docker容器化实现并行扩展与故障自动恢复,最终收集1260万帧动作标注的多人游戏数据。

Solaris的项目地址

  • 项目官网:https://solaris-wm.github.io/
  • GitHub仓库:https://github.com/solaris-wm/solaris
  • HuggingFace模型库:https://huggingface.co/collections/nyu-visionx/solaris-models
  • arXiv技术论文:https://arxiv.org/pdf/2602.22208

Solaris的应用场景

  • 具身智能训练与评估:作为多智能体世界模拟器,为机器人和游戏AI提供合成训练数据,支持策略学习、推理时规划及安全评估,避免在真实环境中试错的高昂成本。
  • 多智能体协作研究:模拟多人协同任务(如共同建造、团队战斗),用于训练AI代理的协作与通信能力,研究 emergent 行为和社会智能。
  • 视觉-语言-动作模型开发:模型能生成大规模多视角视频-动作-语言对齐数据,支持VLA模型的预训练与微调,弥补真实人类多人交互数据的稀缺性。
  • 3D场景理解与空间推理基准:作为可控测试平台,评估模型在视角一致性、物体持久性、空间记忆等核心3D理解能力上的表现。

📝 站长洞察 (Editor’s Insight)

Solaris的发布标志着世界模型从“单人叙事”迈入“多人交互”时代,这是AI理解物理世界复杂性的关键一跃。其创新的跨玩家注意力机制与长序列训练方法,解决了多视角一致性与内存瓶颈的核心难题。从产业视角看,这直接赋能具身智能与多智能体系统的训练范式变革——未来自动驾驶的协同决策、工业机器人的协作、乃至虚拟社交环境的构建,都将受益于这种高保真的多人世界模拟器。团队自研数据闭环系统,也凸显了高质量、可控数据在AI创新中的基石作用。此工作不仅推动技术前沿,更预示着‘合成数据驱动AI进化’的范式正在加速成型。

Flickify视频生成器
Phi-4-Mini – 微软推出专注于文本任务的小型语言模型
​OpenCV 5 重磅发布:全新 DNN 引擎原生支持大模型,迈入大模型时代
ProtGPS – 麻省理工学院等机构推出的蛋白质语言模型
马斯克AI编程体Grok Build0.1颠覆性实测:11元成本碾压GPT-5.5,零失误构建复杂服务
TAGGED:Minecraft世界模型具身智能多智能体视频生成
分享
Email 复制链接 打印
Share
上一篇 Clawith:企业级开源多智能体协作框架,让AI数字员工深度融入团队协作
下一篇 上海AI Lab开源InternVL-U:4B参数轻量化多模态模型,实现理解-推理-生成-编辑端到端闭环
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

智谱开源GLM-4.7-Flash:300亿参数免费调用,编程中文写作翻译全面超越同类模型
AI 工具 AIGC 资讯
COTA:超参数科技发布全球首款「白盒」游戏AI智能体,LLM驱动实现百毫秒响应与真人级战术决策
AI 工具 AIGC 资讯
深度解析马斯克开源x-Algorithm:X平台推荐算法如何用AI大模型颠覆信息流?
AI 工具
Step3-VL-10B:阶跃星辰开源10B参数多模态模型,性能对标200B级巨模,端侧部署新标杆
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

Airweave – 将任何应用程序转为 Agent 知识库的开源工具

站外新闻
流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

Mistral AI 首席执行官宣布自研芯片计划:成本、算力、生态三大战略解析

站外新闻
Mistral AI 企业智能体 算力基础设施 自研芯片 英伟达
AIGC 资讯

Matrix-Game – 昆仑万维开源的工业界首个空间智能大模型

站外新闻
AIGC 资讯

Gemma 4 12B – 谷歌开源的多模态大模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai OpenClaw OpenRouter prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大模型推理 大语言模型 字节跳动 家居 小米 小红书 展台 开源 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 教程 早报 昆仑万维 智能体编程 智谱AI 月之暗面 本地AI 海报设计 清华大学 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 端侧部署 网络安全 腾讯混元 英伟达 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.