Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 优必选开源具身智能大模型Thinker:4B参数9项基准全球第一,工业场景准确率99.99%
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 优必选开源具身智能大模型Thinker:4B参数9项基准全球第一,工业场景准确率99.99%
AI 工具AIGC 资讯

优必选开源具身智能大模型Thinker:4B参数9项基准全球第一,工业场景准确率99.99%

站外新闻
最近更新: 2026年6月7日 下午8:06
优必选 具身智能 开源大模型 机器人 视觉语言大模型
SHARE

💡 站外导读:在机器人技术从实验室走向规模化落地的关键阶段,一个核心矛盾日益凸显:机器人如何才能真正‘看懂’并‘做对’?传统自动化设备柔性不足,难以应对复杂多变的非结构化环境,而通用AI大模型又往往‘眼高手低’,缺乏对物理世界的精细理解和任务执行能力。具身智能,作为连接AI‘大脑’与机器人‘身体’的桥梁,正成为破局的关键。

Thinker是什么

Thinker是优必选开源的具身智能视觉语言大模型,专为机器人场景打造。模型4B参数在9项权威基准测试中斩获全球第一。模型核心能力涵盖任务规划、空间理解、时间推理和视觉定位,能有效解决机器人”想得到但抓不准”的困境。模型基于20亿原始数据精炼出的1000万高质量数据训练,采用自动化标注体系将人工参与率控制在1%以下。模型已支撑Walker S2在工业场景实现99.99%作业准确率,推动具身智能技术普惠发展。

阅读目录
  • Thinker是什么
  • Thinker的主要功能
  • Thinker的技术原理
  • Thinker的项目地址
  • Thinker的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Thinker

Thinker的主要功能

  • 任务规划:Thinker能理解复杂的人类指令,结合历史状态记忆,预测机器人未来的状态变化,将长程任务分解为可执行的子任务序列。
  • 空间理解:Thinker建立了自我为中心的坐标系统,将摄像头作为原点定义所有空间关系,使机器人能精准感知物体在三维空间中的位置和方位。
  • 时间理解:Thinker能从视频历史中提取关键信息,将过去的事件与当前指令相结合,准确评估当前状态做出合理的时序决策。
  • 视觉定位:Thinker能用边界框和精确点坐标的形式描述物体位置,为机器人的抓取操作和交互提供精准的空间指引。

Thinker的技术原理

  • 数据构建:Thinker构建了从原始数据到高质量训练数据的完整流水线。面对20亿条含噪声、难对齐的原始数据,通过定制化规则进行广度筛选,用大模型进行多维度质量评分,精炼出1000万条高质量数据。同时采用”大模型辅助标注加多模型交叉验证”的自动化标注体系,将人工参与率控制在1%以下,使标注成本降低99%而效率提升超百倍。
  • 模型架构设计:Thinker采用经典的视觉语言模型架构,包含文本分词器、视觉编码器、多层感知机对齐层和语言模型骨干四个核心模块。实现视觉、语言和时间的统一表征,使模型能准确捕捉视觉细节、理解任务指令并进行跨模态推理。
  • 训练策略:Thinker采用两阶段训练方法。第一阶段在通用数据集、空间理解数据集和大规模规划数据集上进行微调,建立基础感知和推理能力,同时引入视频最后一帧作为辅助输入以增强视频理解。第二阶段在工业任务数据集上进行监督微调,使模型适应序列依赖、多样物体布局和反馈修正,最终生成可在真实工业场景中执行的规划方案。
  • 关键创新:Thinker针对机器人视角混淆和视频信息遗漏的痛点,提出在视频理解训练中联合输入关键帧与完整视频的简单有效方法,显著增强模型的时序理解能力。同时通过高质量数据筛选和任务导向型采样,在仅4B参数规模下实现超越10B以上模型的性能表现。

Thinker的项目地址

  • GitHub仓库:https://github.com/UBTECH-Robot/Thinker
  • HuggingFace模型库:https://huggingface.co/UBTECH-Robotics/Thinker-4B
  • arXiv技术论文:https://arxiv.org/pdf/2601.21199

Thinker的应用场景

  • 工业智能制造:Thinker可驱动人形机器人在工厂产线完成箱体搬运、工件分拣等任务,Walker S2已实现99.99%的作业准确率,有效解决传统自动化设备柔性不足的问题。
  • 仓储物流作业:Thinker支持机器人在动态仓库环境中进行货物识别、路径规划和精准抓取,适应SKU多样化和高频变化的物流需求。
  • 商用服务场景:Thinker赋能机器人在商场、展厅等公共场所提供引导、讲解和互动服务,通过视觉语言理解实现自然的人机交互。
  • 复杂操作任务:Thinker使机器人能执行需要长程规划和精细空间感知的操作,如设备巡检、零部件装配和多步骤实验流程。
  • 群体智能协作:Thinker作为认知基座支撑优必选的群脑网络和协作智能体Co-Agent,实现多机器人之间的任务分配、协同决策和自主进化。

📝 站长洞察 (Editor’s Insight)

Thinker的发布,标志着具身智能正从‘概念验证’迈入‘效能驱动’的新阶段。其核心价值在于,它没有盲目追求参数规模,而是通过极致的数据工程和架构创新,在4B的‘小身材’上实现了‘大智慧’。这预示着行业的一个重要趋势:大模型的竞争正从‘比大’转向‘比效’,在特定垂直领域,精炼的数据、明确的场景定义和高效的训练策略,可能比单纯堆叠参数更具商业和技术价值。优必选通过开源将这套经过工业场景严酷验证的方法论和模型共享出来,不仅加速了自身生态构建,更是在为整个具身智能赛道铺设一条更务实、更低成本的进化路径。未来,谁能率先在‘数据飞轮’和‘场景闭环’上建立起优势,谁就有可能定义下一代机器人的智能标准。

Inf-DiT – 清华联合智谱 AI 推出的超高分辨率图像生成模型
Praison AI – 开源AI多智能体框架,低代码创建和管理AI代理
HiveChat – 开源 AI 聊天机器人,支持Deepseek等主流 AI 模型
xAI Imagine v0.9 发布:20秒生成6秒视频,Grok免费开放,AIGC视频创作新标杆
Claude Code 实战宝典:开源指南含86+技巧与10+工作流对比,从氛围编程到智能体工程
TAGGED:优必选具身智能开源大模型机器人视觉语言大模型
分享
Email 复制链接 打印
Share
上一篇 智谱AI开源GLM-OCR:0.9B参数登顶SOTA,轻量级多模态OCR模型革新文档解析
下一篇 Happy开源AI编程神器:手机远程监控Claude Code,实时掌控开发任务进度
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

流光脑波AI大脑占位特色图
2026年3月美国AI榜单巨变:Claude单月狂飙130%紧追ChatGPT,格局突变信号已现
AIGC 资讯 最新趋势
得物实战揭秘:AI Coding工具如何突破数仓开发’失忆’痛点,Harness工程引领新范式
AI 工具 AIGC 资讯
全息流体渐变通用占位特色图
历史性和解!Meta妥协规避审判,美国首例学校诉社交媒体成瘾案落幕,揭示行业司法风向
AIGC 资讯
量子芯片科技感占位特色图
Spotify与环球音乐联手:AI翻唱混音工具上线,正版版权终结Suno野蛮生长
AI 工具 AIGC 资讯 最新趋势

相关推荐

AI 工具

Sivi AI

remaker
AIGC 资讯

PilotDeck – 清华联合面壁智能开源的 Agent 操作系统

站外新闻
AI 工具最新趋势

Leonardo Ai 正式推出 PhotoReal, 全新的逼真图像渲染流程!

OZ
Leonardo Ai PhotoReal 新功能
流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

全球AI监管硬核转向:美英强制测试成企业入场券,安全能力=核心竞争力

站外新闻
AI监管 openai 人工智能 安全评估
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 轻量级模型 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.