Multiverse – Enigma Labs推出的全球首款AI生成多人游戏模型

Multiverse是什么

Multiverse是以色列团队Enigma Labs推出的全球首个AI生成多人游戏模型。是多人赛车游戏，玩家可以超车、漂移、加速，每一次行动会实时影响并重塑游戏世界。模型通过AI技术实时生成游戏画面，确保两名玩家看到的是同一个逻辑统一的世界。模型基于扩散模型，将玩家的视角和动作融合处理，生成连贯且一致的游戏画面。Multiverse的核心技术在于创新的多人世界模型架构，通过联合动作向量和双视角通道堆叠技术，解决了多人游戏中视角一致性的难题。模型的训练成本仅需1500美元，可在普通PC上运行。项目代码、数据、权重、架构及研究成果已全面开源，为 AI 在多人游戏领域的应用提供新的可能性。

阅读目录

Multiverse是什么
Multiverse的主要功能
Multiverse的技术原理
Multiverse的项目地址
Multiverse的数据集
Multiverse的应用场景

Multiverse

Multiverse的主要功能

多人实时交互：支持两名玩家在同一虚拟世界中实时互动，例如在赛车游戏中实现超车、碰撞等操作，双方视角保持一致。
动态世界生成：根据玩家的动作和操作，实时生成游戏画面。
高效帧预测：准确预测未来的游戏帧，确保游戏的流畅性和连贯性。
低成本运行：支持在普通个人电脑上运行，无需高端硬件支持，降低使用门槛。

Multiverse的技术原理

多人游戏架构：为了构建多人游戏世界模型，保留了上面的核心构建模块，对结构进行了拆解 —— 重新对输入和输出进行了连接，从头开始重新设计了训练流程，实现真正的合作游戏：
- 动作嵌入器：获取两个玩家的动作，并输出一个代表它们的嵌入。
- 去噪网络：一个扩散网络，能基于两个玩家之前的帧和动作嵌入，以一个实体的形式同时生成两个玩家的帧。
- 上采样器：这里的上采样器会分别接收两个玩家的帧，同时计算上采样后的版本。
视角合并解决方案：为了打造多人游戏体验，模型需要收集双方玩家之前的帧和动作，输出各自预测的帧。关键在于：这两个输出不能仅仅看起来美观，需要在内部保持一致。Multiverse 提出了一种变通的解决方案：将两个玩家的视角拼接成一张图像，将他们的输入融合成一个联合动作向量，并将这一切视为一个统一的场景。具体做法是沿通道轴堆叠，把两帧图像视为具有两倍色彩通道的图像。因为这里的扩散模型是一个 U 型网络，主要由卷积层和解卷积层组成，所以第一层只处理附近的像素。如果将两个帧垂直堆叠，那么直到中间层才会对帧进行处理。降低了模型在帧间产生一致结构的能力。而如果将帧按通道轴堆叠，则网络的每一层都会同时处理两名玩家的视图。
训练方法
- 上下文扩展：为了准确预测下一帧，模型需要接收玩家的动作（如转向输入）和足够的帧数，以计算两辆车相对于道路和彼此的速度。研究发现 8 帧（30 帧/秒）的帧数可以让模型学习车辆运动学，如加速、制动和转向。但两辆车的相对运动速度要比道路慢得多。为了捕捉这种相对运动，需要将上下文的大小扩大近三倍。但这样做会使模型速度过慢，无法进行实时游戏，增加内存使用量，并使训练速度大大降低。为了保持上下文大小，但又能提供更多的时间信息，作者为模型提供了前几帧和动作的稀疏采样。具体来说，他们向模型提供最近的 4 个帧。然后在接下来的 4 个帧中每隔 4 个帧提供一次。上下文中最早的一帧为 20 帧，即过去 0.666 秒，足以捕捉到车辆的相对运动。还能让模型更好地捕捉到与路面相比的速度和加速度，使驾驶的动态效果更加出色。
- 多人游戏训练：为了让模型学会驾驶技术和多人游戏中的互动，模型需要在这些互动场景中进行训练。世界模型中的行走、驾驶和其他常见任务通常只需要较短的预测范围，例如预测未来 0.25 秒的情况。多人游戏中的互动则需要更长的时间跨度。在四分之一秒内，玩家之间的相对运动几乎可以忽略不计。为了训练多人游戏世界模型，需要设置更长的预测范围。Multiverse 将训练模型进行自回归预测（以 30 帧/秒）最多可预测到未来 15 秒。为了使模型能进行如此长时间的预测，Multiverse 采用了课程学习，在训练过程中将预测时间从 0.25 秒增加到 15 秒。在初始训练阶段能高效地训练模型，此时模型正在学习诸如汽车和赛道几何形状等低级特征。模型学会了生成连贯的帧并建模车辆运动学，会对其进行玩家行为等高级概念的训练。在增加预测范围后，模型的「物理一致性」和帧间一致性显著提高。
- 高效的长视野训练：训练未来 100 帧以上的模型对 VRAM 提出了挑战。在更大 batch 下，将这些帧加载到 GPU 内存中进行自回归预测变得不可行。为了解决这个内存限制，采用分页的方式进行自回归预测。在训练开始时，加载第一个 batch 的数据，对其进行预测。然后加载下一页的数据，丢弃超出上下文窗口范围的帧。

Multiverse的项目地址

项目官网：https://enigma-labs.io/blog
GitHub仓库：https://github.com/EnigmaLabsAI/multiverse
HuggingFace模型库：https://huggingface.co/Enigma-AI

Multiverse的数据集

数据来源：团队训练模型的数据收集自索尼的游戏《GT 赛车 4》（Gran Turismo 4）。
数据收集方法：基于游戏内的回放系统，将每场比赛重放两次，从每名玩家的角度进行录制。然后将两个录像同步，与原始双人比赛对齐，将它们合并成一个视频，展示两名玩家同时进行游戏。利用计算机视觉逐帧提取游戏屏幕上显示的油门、刹车、方向条，再反推出控制指令。也就是说，全靠画面信息就能还原操作，无需额外日志文件。
自动数据生成：编写脚本向游戏的 B-Spec 模式发送随机输入，自动触发比赛，从两个视角录制回放画面，捕捉 AI 驱动比赛的第三人称视频。

Multiverse的应用场景

多人游戏开发：用在开发多人在线游戏，提供更真实、丰富的互动体验。
VR/AR应用：创建多人共享的虚拟环境，增强沉浸感和社交性。
AI训练与研究：作为开源模型，训练智能AI Agent，研究复杂环境下的决策和协作。
教育与培训：创建虚拟训练场景，用在驾驶、军事演练或团队协作训练。
娱乐与社交：开发虚拟聚会、在线活动等应用，提供新颖的社交体验。
模拟经营游戏：在模拟经营游戏中，玩家需要进行资源管理、建筑规划、城市发展等操作。每一次决策都可能影响整个模拟世界的经济和生态平衡。

Multiverse – Enigma Labs推出的全球首款AI生成多人游戏模型

Multiverse是什么

Multiverse的主要功能

Multiverse的技术原理

Multiverse的项目地址

Multiverse的数据集

Multiverse的应用场景

发表评价取消回复

最近更新

AutoGLM-Web – AI浏览器助手，模拟用户进行网页浏览与交互

OmniGen – 统一图像生成的扩散模型，支持多模态输入

CogAgent – 清华与智谱AI联合推出的多模态视觉大模型

OMNE Multiagent – 天桥脑科学研究院推出的大模型多智能体框架

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Multiverse是什么

Multiverse的主要功能

Multiverse的技术原理

Multiverse的项目地址

Multiverse的数据集

Multiverse的应用场景

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复