Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 优必选开源具身智能大模型Thinker:4B参数9项基准全球第一,工业场景准确率99.99%
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 优必选开源具身智能大模型Thinker:4B参数9项基准全球第一,工业场景准确率99.99%
AI 工具AIGC 资讯

优必选开源具身智能大模型Thinker:4B参数9项基准全球第一,工业场景准确率99.99%

站外新闻
最近更新: 2026年6月7日 下午8:06
优必选 具身智能 开源大模型 机器人 视觉语言大模型
SHARE

💡 站外导读:在机器人技术从实验室走向规模化落地的关键阶段,一个核心矛盾日益凸显:机器人如何才能真正‘看懂’并‘做对’?传统自动化设备柔性不足,难以应对复杂多变的非结构化环境,而通用AI大模型又往往‘眼高手低’,缺乏对物理世界的精细理解和任务执行能力。具身智能,作为连接AI‘大脑’与机器人‘身体’的桥梁,正成为破局的关键。

Thinker是什么

Thinker是优必选开源的具身智能视觉语言大模型,专为机器人场景打造。模型4B参数在9项权威基准测试中斩获全球第一。模型核心能力涵盖任务规划、空间理解、时间推理和视觉定位,能有效解决机器人”想得到但抓不准”的困境。模型基于20亿原始数据精炼出的1000万高质量数据训练,采用自动化标注体系将人工参与率控制在1%以下。模型已支撑Walker S2在工业场景实现99.99%作业准确率,推动具身智能技术普惠发展。

阅读目录
  • Thinker是什么
  • Thinker的主要功能
  • Thinker的技术原理
  • Thinker的项目地址
  • Thinker的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Thinker

Thinker的主要功能

  • 任务规划:Thinker能理解复杂的人类指令,结合历史状态记忆,预测机器人未来的状态变化,将长程任务分解为可执行的子任务序列。
  • 空间理解:Thinker建立了自我为中心的坐标系统,将摄像头作为原点定义所有空间关系,使机器人能精准感知物体在三维空间中的位置和方位。
  • 时间理解:Thinker能从视频历史中提取关键信息,将过去的事件与当前指令相结合,准确评估当前状态做出合理的时序决策。
  • 视觉定位:Thinker能用边界框和精确点坐标的形式描述物体位置,为机器人的抓取操作和交互提供精准的空间指引。

Thinker的技术原理

  • 数据构建:Thinker构建了从原始数据到高质量训练数据的完整流水线。面对20亿条含噪声、难对齐的原始数据,通过定制化规则进行广度筛选,用大模型进行多维度质量评分,精炼出1000万条高质量数据。同时采用”大模型辅助标注加多模型交叉验证”的自动化标注体系,将人工参与率控制在1%以下,使标注成本降低99%而效率提升超百倍。
  • 模型架构设计:Thinker采用经典的视觉语言模型架构,包含文本分词器、视觉编码器、多层感知机对齐层和语言模型骨干四个核心模块。实现视觉、语言和时间的统一表征,使模型能准确捕捉视觉细节、理解任务指令并进行跨模态推理。
  • 训练策略:Thinker采用两阶段训练方法。第一阶段在通用数据集、空间理解数据集和大规模规划数据集上进行微调,建立基础感知和推理能力,同时引入视频最后一帧作为辅助输入以增强视频理解。第二阶段在工业任务数据集上进行监督微调,使模型适应序列依赖、多样物体布局和反馈修正,最终生成可在真实工业场景中执行的规划方案。
  • 关键创新:Thinker针对机器人视角混淆和视频信息遗漏的痛点,提出在视频理解训练中联合输入关键帧与完整视频的简单有效方法,显著增强模型的时序理解能力。同时通过高质量数据筛选和任务导向型采样,在仅4B参数规模下实现超越10B以上模型的性能表现。

Thinker的项目地址

  • GitHub仓库:https://github.com/UBTECH-Robot/Thinker
  • HuggingFace模型库:https://huggingface.co/UBTECH-Robotics/Thinker-4B
  • arXiv技术论文:https://arxiv.org/pdf/2601.21199

Thinker的应用场景

  • 工业智能制造:Thinker可驱动人形机器人在工厂产线完成箱体搬运、工件分拣等任务,Walker S2已实现99.99%的作业准确率,有效解决传统自动化设备柔性不足的问题。
  • 仓储物流作业:Thinker支持机器人在动态仓库环境中进行货物识别、路径规划和精准抓取,适应SKU多样化和高频变化的物流需求。
  • 商用服务场景:Thinker赋能机器人在商场、展厅等公共场所提供引导、讲解和互动服务,通过视觉语言理解实现自然的人机交互。
  • 复杂操作任务:Thinker使机器人能执行需要长程规划和精细空间感知的操作,如设备巡检、零部件装配和多步骤实验流程。
  • 群体智能协作:Thinker作为认知基座支撑优必选的群脑网络和协作智能体Co-Agent,实现多机器人之间的任务分配、协同决策和自主进化。

📝 站长洞察 (Editor’s Insight)

Thinker的发布,标志着具身智能正从‘概念验证’迈入‘效能驱动’的新阶段。其核心价值在于,它没有盲目追求参数规模,而是通过极致的数据工程和架构创新,在4B的‘小身材’上实现了‘大智慧’。这预示着行业的一个重要趋势:大模型的竞争正从‘比大’转向‘比效’,在特定垂直领域,精炼的数据、明确的场景定义和高效的训练策略,可能比单纯堆叠参数更具商业和技术价值。优必选通过开源将这套经过工业场景严酷验证的方法论和模型共享出来,不仅加速了自身生态构建,更是在为整个具身智能赛道铺设一条更务实、更低成本的进化路径。未来,谁能率先在‘数据飞轮’和‘场景闭环’上建立起优势,谁就有可能定义下一代机器人的智能标准。

Qwen-Image-Bench – 通义千问推出的文生图模型评测基准
MedReason – 美国加州联合南洋理工等机构推出的医学推理框架
月之暗面 Kimi K2.6 开源旗舰模型发布:性能对标GPT-5.4,支持300个Agent并行协作与5天自主运行
PP-DocBee – 百度飞桨推出的文档图像理解多模态大模型
Adcreative.ai
TAGGED:优必选具身智能开源大模型机器人视觉语言大模型
分享
Email 复制链接 打印
Share
上一篇 智谱AI开源GLM-OCR:0.9B参数登顶SOTA,轻量级多模态OCR模型革新文档解析
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

智谱AI开源GLM-OCR:0.9B参数登顶SOTA,轻量级多模态OCR模型革新文档解析
AI 工具 AIGC 资讯
玄武CLI:5分钟部署国产大模型,一键激活华为昇腾、沐曦芯片算力,清昴智能开源利器破解“能用不好用”难题
AI 工具 AIGC 资讯
SoulX-FlashTalk:Soul App 14B参数开源模型,0.87秒延迟实现7×24小时实时数字人直播
AI 工具 AIGC 资讯
Qwen3-Coder-Next:阿里通义千问开源80B参数MoE编程智能体,SWE-Bench解决率超70%!自动写代码、修Bug、部署测试,开启AI编程新范式
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

MedRAX – AI医学推理Agent,用于胸部X光检查和解决复杂医学问题

站外新闻
AI 工具

Ubie AI 医疗

remaker
AIGC 资讯

AstrBot – 开源多平台聊天机器人及开发框架

站外新闻
AIGC 资讯

gpt-4o-mini-transcribe – OpenAI 推出的语音转文本模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai OpenClaw OpenRouter Pika prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 小红书 展台 建筑 开源 开源AI工具 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 本地AI 海报设计 清华大学 生成式AI 科幻 端侧AI 网络安全 腾讯 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 阿里通义千问 面壁智能 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.