Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 字节跳动Game-TARS发布:5000亿数据预训练通用游戏智能体,性能超越GPT-5与Gemini-2.5-Pro
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 字节跳动Game-TARS发布:5000亿数据预训练通用游戏智能体,性能超越GPT-5与Gemini-2.5-Pro
AI 工具AIGC 资讯

字节跳动Game-TARS发布:5000亿数据预训练通用游戏智能体,性能超越GPT-5与Gemini-2.5-Pro

站外新闻
最近更新: 2026年6月7日 下午8:14
AI Agent Game-TARS 多模态大模型 字节跳动 游戏智能体
SHARE

💡 站外导读:当前AI游戏Agent面临泛化性差、平台适配成本高、依赖游戏特定代码等核心痛点。字节跳动Seed团队推出的Game-TARS,通过构建统一的键盘-鼠标动作空间,并在超5000亿标注的多模态数据上进行预训练,旨在解决这些问题。这不仅标志着通用型游戏智能体取得重大进展,更可能重塑游戏开发、测试乃至AI研究的基础范式,推动AI在复杂动态环境中实现更接近人类的物理交互与任务理解。

Game-TARS是什么

Game-TARS是字节跳动Seed团队开发的通用型游戏智能体,基于统一的键盘-鼠标动作空间训练,可在操作系统、网页与模拟环境中进行大规模预训练。依托超5000亿标注量级的多模态训练数据,结合稀疏推理与衰减持续损失,大幅提升了智能体的可扩展性和泛化性。Game-TARS的核心创新在于让智能体像人一样用键盘和鼠标操作,通过模拟人类操作的方式完成游戏中的每一个动作,实现了与人类用户物理交互方式的直接对齐。在FPS、开放世界、WEB游戏等任务中,表现超越了GPT-5、Gemini-2.5-Pro、Claude-4-Sonnet。

阅读目录
  • Game-TARS是什么
  • Game-TARS的主要功能
  • Game-TARS的技术原理
  • Game-TARS的项目地址
  • Game-TARS的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Game-TARS

Game-TARS的主要功能

  • 跨平台游戏操作:Game-TARS能通过统一的键盘-鼠标动作空间,在不同平台(如PC、网页、模拟环境)上操作游戏,无需为每个平台编写特定脚本,实现跨平台的自动化测试和游戏交互。
  • 多模态数据预训练:基于超过5000亿标注量级的多模态数据进行预训练,涵盖游戏轨迹、图形用户界面交互等多种数据类型,使智能体具备强大的泛化能力和适应性,能够处理各种复杂的游戏任务。
  • 高效推理与稀疏思维:采用稀疏推理策略,只在关键决策点进行深度推理,结合拒绝微调技术,优化推理过程,提高推理效率和动作的可操作性,让智能体在复杂环境中做出更精准的决策。
  • 长期记忆与短期记忆结合:引入双层记忆机制,短期记忆保存最新的图像信息,长期记忆则保留精炼的稀疏思维文本,帮助智能体在长期任务中保持对关键信息的记忆,提升任务完成率和交互智能。
  • 零样本迁移能力:经过大规模预训练后,Game-TARS能够在未见过的3D网页游戏中实现零样本迁移,无需额外训练即可快速适应新环境并完成任务,展现出强大的泛化能力。
  • 指令遵循与动作语义理解:通过随机替换按键绑定等方式,强化智能体对指令的遵循能力,使其能够基于系统提示理解动作语义,准确执行任务指令,提高在不同游戏环境中的适应性和操作准确性。

Game-TARS的技术原理

  • 统一动作空间:采用与人类对齐的原生键盘-鼠标输入动作,如mouseMove、mouseClick和keyPress等,使智能体的动作指令集与特定应用或操作系统解耦,实现跨平台的通用性。
  • 多模态数据预训练:基于超过5000亿标记的多模态数据进行预训练,包括游戏轨迹、图形用户界面交互、代码生成和科研任务等多种数据类型,提升智能体的泛化能力和适应性。
  • 稀疏推理策略:通过稀疏推理(Sparse-Thinking)技术,仅在关键决策点进行深度推理,结合拒绝微调(Rejection Fine-Tuning),优化推理过程,提高推理效率和动作的可操作性。
  • 视觉语言模型整合:将视觉感知、策略推理、动作执行和长期记忆整合到一个视觉语言模型(VLM)中,无需针对每款游戏编写特定代码或规则,智能体能够自主学习操作并完成任务。
  • 持续预训练框架:采用统一的单阶段持续预训练方法,将所有数据源融合在一起,对模型进行大规模预训练,同时在后训练阶段进一步强化智能体在特定任务中的执行能力和交互智能。
  • 长期与短期记忆机制:引入双层记忆机制,短期记忆保存最新图像信息,长期记忆保留精炼的稀疏思维文本,帮助智能体在长期任务中保持对关键信息的记忆,提升任务完成率和交互智能。

Game-TARS的项目地址

  • 项目官网:https://seed-tars.com/game-tars/
  • arXiv技术论文:https://arxiv.org/pdf/2510.23691

Game-TARS的应用场景

  • 游戏自动化测试:Game-TARS可用于自动化测试各类游戏,包括FPS(第一人称射击游戏)、开放世界游戏、网页游戏等,帮助开发者快速发现游戏中的问题,提高测试效率和质量。
  • 跨平台适配测试:由于其统一动作空间的设计,Game-TARS能够在不同平台(如PC、移动端、网页端)上进行适配测试,确保游戏在多平台上的兼容性和一致性。
  • 复杂任务执行:Game-TARS能够处理复杂的游戏任务,如在《我的世界》中完成建筑、探索等任务,甚至在未见过的3D网页游戏中实现零样本迁移,展现出强大的泛化能力。
  • 异常场景处理:Game-TARS具备错误恢复机制,能够通过失败案例自监督学习,处理游戏中的异常场景,提高智能体的鲁棒性。
  • 游戏开发辅助:除了测试,Game-TARS还可以辅助游戏开发,例如在游戏设计阶段提供交互原型测试,帮助开发者优化游戏设计和用户体验。
  • 研究与教育:Game-TARS的开源性质使其成为研究和教育领域的宝贵资源,研究人员可以利用其框架进行人工智能、机器学习等相关领域的研究,教育机构也可以将其作为教学案例,培养学生的实践能力。

📝 站长洞察 (Editor’s Insight)

Game-TARS的发布,标志着AI游戏Agent从‘专用工具’向‘通用智能体’的关键跃迁。其核心突破并非单纯性能榜单的超越,而在于三个范式级的创新:第一,它将动作空间‘人类化’,统一的键鼠输入解耦了底层平台,为通用性奠定了物理交互基础。第二,5000亿级多模态数据的‘暴力美学’,结合稀疏推理等高效训练策略,验证了‘数据规模+高效架构’仍是通向强泛化能力的核心路径。第三,其零样本迁移能力揭示了一个更深远的趋势:未来Agent将像人一样,通过理解世界运作的底层逻辑(此处是GUI交互逻辑),而非背诵特定任务指令来工作。这不仅是游戏测试的工具革命,更是通用人工智能(AGI)在模拟环境中的一次重要预演,为机器人、自动化办公等更广泛的具身智能场景提供了关键技术思路。

Gizzmo AI
Midjourney V8震撼发布:速度飙升5倍、原生2K直出,AI图像生成进入新时代
YuE – 港科大联合 M-A-P 推出的开源AI音乐生成模型
MiniMax开源M2.5旗舰模型:10B参数实现100 TPS狂飙,编程与Agent能力颠覆行业格局
MnnLlmApp – 阿里巴巴开源的离线大模型 Android 手机应用AI助手
TAGGED:AI AgentGame-TARS多模态大模型字节跳动游戏智能体
分享
Email 复制链接 打印
Share
上一篇 SWE-1.5发布:Cognition推出950 token/s极速AI编程模型,速度碾压Haiku与Sonnet,深度解析技术原理与应用场景
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

SWE-1.5发布:Cognition推出950 token/s极速AI编程模型,速度碾压Haiku与Sonnet,深度解析技术原理与应用场景
AI 工具 AIGC 资讯
美团开源LongCat-Flash-Omni:5600亿参数全模态大模型,实时音视频交互,重塑AI应用边界
AI 工具 AIGC 资讯
Google DeepMind与UCL强强联手:免费AI研究基础课程,手把手教你从零构建Transformer模型
AI 工具 AIGC 资讯
Open AgentKit 开源发布:零一万物AI Agent开发平台,四大模块降低开发门槛
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型

站外新闻
AI 工具

Manifest AI

remaker
AIGC 资讯

Prometheus – 浙大联合蚂蚁等高校推出的3D感知潜在扩散模型

站外新闻
AI 工具AIGC 资讯

微软重磅发布MAI-Transcribe-1语音转文字模型:25种语言全面超越Whisper,成本直降50%,企业级应用场景全解析

站外新闻
FLEURS基准测试 企业级AI模型 多语言识别 微软Azure AI 语音转文字
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI图像生成 AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程工具 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.4 GPT-5.5 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai OpenClaw prompt SWE-Bench 世界模型 丛林 人工智能 人物 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型应用 大语言模型 字节跳动 家居 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 文本转语音 早报 智谱AI 月之暗面 本地AI 清华大学 生成式AI 科大讯飞 端侧AI 端侧大模型 端侧部署 网络安全 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 赛博朋克 通义千问 长上下文 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.