💡 站外导读:当前AI世界模型主要局限于单人视角,难以模拟多人交互的复杂动态,这严重制约了具身智能训练与多智能体协作研究。谢赛宁团队开源的Solaris模型,作为首个多人视频世界生成系统,在Minecraft中实现了双玩家第一人称视角的同步生成,确保跨视角空间一致性。该突破性进展将为AI世界模拟、游戏AI开发及机器人训练提供全新的高质量合成数据解决方案。
Solaris是什么
Solaris是首个多人视频世界生成模型,能在Minecraft中同时生成两个玩家一致的第一人称视角。模型突破现有模型仅支持单玩家的局限,确保跨玩家视角的空间一致性——当一个玩家建造或移动时,另一视角同步反映变化。团队自研了SolarisEngine数据系统,收集1260万帧多人游戏数据,创新推出Checkpointed Self Forcing训练方法解决长序列内存瓶颈。

Solaris的主要功能
- 多人视角同步生成:Solaris能同时为两位玩家生成一致的第一人称视频,确保跨玩家视角的空间一致性,当一个玩家执行动作时另一玩家的视角会实时反映变化。
- 长时序稳定生成:通过Checkpointed Self Forcing技术,Solaris可生成长达224帧(11.2秒)的稳定视频序列,有效避免误差累积导致的视觉退化。
- 动作条件控制:模型接受完整的Minecraft动作输入(包括移动、相机、挖掘、放置等),生成的视频严格遵循给定的动作序列。
- 复杂动态模拟:Solaris能模拟背包状态同步、天气变化、物理建造破坏、PvP战斗等复杂游戏动态。
Solaris的技术原理
- 多人DiT架构:基于MatrixGame 2.0的单玩家扩散Transformer,通过扩展动作空间支持完整Minecraft输入,引入跨玩家自注意力层实现双玩家信息交换,添加玩家ID嵌入以区分不同视角,其余模块(交叉注意力、FFN)保持单玩家设置不变。
- 四阶段渐进训练:从单玩家预训练权重出发,在VPT数据集上微调适配Minecraft动作空间,再切换到多人数据训练双向模型作为教师,因果化为滑动窗口生成器,通过Checkpointed Self Forcing实现长序列稳定生成。
- Checkpointed Self Forcing:为解决滑动窗口自回归的内存瓶颈,该方法先无梯度生成并缓存干净帧与噪声状态,通过自定义注意力掩码单次并行重计算,严格复现滑动窗口依赖关系,将内存从 降至 ,同时支持KV缓存梯度回传提升生成质量。
- SolarisEngine数据系统:针对现有框架缺乏多人支持的问题,团队构建基于Mineflayer的控制器与官方Minecraft客户端的相机分离架构,通过服务器插件实时同步状态,用Docker容器化实现并行扩展与故障自动恢复,最终收集1260万帧动作标注的多人游戏数据。
Solaris的项目地址
- 项目官网:https://solaris-wm.github.io/
- GitHub仓库:https://github.com/solaris-wm/solaris
- HuggingFace模型库:https://huggingface.co/collections/nyu-visionx/solaris-models
- arXiv技术论文:https://arxiv.org/pdf/2602.22208
Solaris的应用场景
- 具身智能训练与评估:作为多智能体世界模拟器,为机器人和游戏AI提供合成训练数据,支持策略学习、推理时规划及安全评估,避免在真实环境中试错的高昂成本。
- 多智能体协作研究:模拟多人协同任务(如共同建造、团队战斗),用于训练AI代理的协作与通信能力,研究 emergent 行为和社会智能。
- 视觉-语言-动作模型开发:模型能生成大规模多视角视频-动作-语言对齐数据,支持VLA模型的预训练与微调,弥补真实人类多人交互数据的稀缺性。
- 3D场景理解与空间推理基准:作为可控测试平台,评估模型在视角一致性、物体持久性、空间记忆等核心3D理解能力上的表现。
📝 站长洞察 (Editor’s Insight)
Solaris的发布标志着世界模型从“单人叙事”迈入“多人交互”时代,这是AI理解物理世界复杂性的关键一跃。其创新的跨玩家注意力机制与长序列训练方法,解决了多视角一致性与内存瓶颈的核心难题。从产业视角看,这直接赋能具身智能与多智能体系统的训练范式变革——未来自动驾驶的协同决策、工业机器人的协作、乃至虚拟社交环境的构建,都将受益于这种高保真的多人世界模拟器。团队自研数据闭环系统,也凸显了高质量、可控数据在AI创新中的基石作用。此工作不仅推动技术前沿,更预示着‘合成数据驱动AI进化’的范式正在加速成型。
