Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Seer – 上海 AI Lab 联合北大等机构推出的端到端操作模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Seer – 上海 AI Lab 联合北大等机构推出的端到端操作模型
AIGC 资讯

Seer – 上海 AI Lab 联合北大等机构推出的端到端操作模型

站外新闻
最近更新: 2026年6月9日 上午1:07
SHARE

Seer是什么

Seer是由上海AI实验室、北京大学计算机科学与技术学院、北京大学软件与微电子学院等机构联合推出的端到端操作模型,实现机器人视觉预测与动作执行的高度协同。模型结合历史信息和目标信号(如语言指令),预测未来时刻的状态,用逆动力学模型生成动作信号。Seer基于Transformer的结构,处理多模态输入数据,有效融合视觉、语言和机器人本体信号。在真实机器人任务中,Seer的操作成功率较当前Sota提升43%,且在多种复杂场景下表现出优异的泛化能力。Seer在控制算法测试基准CALVIN ABC-D Benchmark中,Seer的平均任务完成长度达4.28,综合领先同类模型。

阅读目录
  • Seer是什么
  • Seer的主要功能
  • Seer的技术原理
  • Seer的项目地址
  • Seer的应用场景

Seer

Seer的主要功能

  • 动作预测:根据当前的视觉状态和目标,预测出合适的机器人动作。基于逆动力学模型估计实现目标所需的中间动作序列。
  • 视觉预测:Seer具备条件视觉预测功能,能预测未来一定时间步内的RGB图像。让机器人“预见”未来的视觉状态,更好地规划和调整动作。
  • 多模态融合:融合视觉、语言和机器人状态等多种模态的信息,实现对复杂任务的理解和执行。基于多模态编码器将不同模态的特征进行整合,为动作预测和视觉预测提供全面的上下文信息。
  • 泛化能力:经过在大规模机器人数据集上的预训练,Seer展现出强大的泛化能力,在未见场景、新物体、不同光照条件下以及面对高强度干扰时,依然保持稳定的性能。
  • 数据效率:Seer在预训练阶段用大量数据学习到丰富的先验知识,因此在下游任务中仅需要少量的微调数据即可达到较好的性能,降低数据采集和标注的成本。

Seer的技术原理

  • 端到端架构:基于端到端的架构设计,将视觉预测和逆动力学预测紧密结合在一起。在训练过程中,视觉预测模块和逆动力学模块协同优化,让模型能充分利用视觉和动作信息,实现更准确的动作预测。
  • Transformer架构:基于Transformer架构处理视觉状态和动作信息。Transformer能捕捉到视觉和动作序列中的复杂依赖关系,为模型提供强大的特征提取和表示能力。
  • 先见令牌和动作令牌:Seer引入先见令牌(foresight token)和动作令牌(action token)。先见令牌预测未来的RGB图像,动作令牌估计当前和预测未来观察之间的中间动作。两个令牌基于多模态编码器与输入的RGB图像、机器人状态和语言令牌进行融合,用单向注意力掩码实现深度的信息整合。
  • 单向注意力掩码:Seer设计特殊的单向注意力掩码,让动作令牌充分整合过去和未来的预测信息,有助于模型在多层网络中实现更深层次的信息融合,提高动作预测的准确性和鲁棒性。
  • 大规模预训练与微调:Seer首先在大规模机器人数据集(如DROID)上进行预训练,学习到丰富的视觉和动作先验知识。在下游任务中,基于少量的微调数据对模型进行调整,适应具体的任务场景和目标。

Seer的项目地址

  • 项目官网:https://nimolty.github.io/Seer
  • GitHub仓库:https://github.com/OpenRobotLab/Seer
  • arXiv技术论文:https://arxiv.org/pdf/2412.15109

Seer的应用场景

  • 工业自动化:指导机器人精准安装汽车部件,提高装配效率和质量。
  • 服务机器人:帮助服务机器人按需将物品准确送达客房,提升客户体验。
  • 医疗健康:作为虚拟手术机器人的核心,辅助医学生学习和练习手术技能。
  • 物流与仓储:自动化分拣系统快速准确地将包裹分拣到指定通道,提高分拣效率。
  • 教育行业:作为教学案例,帮助学生深入理解机器人编程的高级技术和算法。
Luma AI发布Uni-1:首个边思考边创作的统一图像生成模型,推理能力碾压GPT Image
FlexIP – 腾讯推出的个性化图像生成编辑框架
GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
OmniSVG – 复旦大学联合 StepFun 推出端到端多模态矢量图形生成模型
Crack Coder – AI技术面试工具,提供实时编程问题支持
分享
Email 复制链接 打印
Share
上一篇 TIGER – 清华大学推出的轻量级语音分离模型
下一篇 LaDeCo – 西安交大联合微软推出的自动图形设计构图方法
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

LaDeCo – 西安交大联合微软推出的自动图形设计构图方法
AIGC 资讯
TIGER – 清华大学推出的轻量级语音分离模型
AIGC 资讯
Magma – 微软研究院联合华盛顿等高校推出的多模态AI基础模型
AIGC 资讯
NEXUS-O – 多模态AI模型,实现对语言、音频和视觉全方位感知与交互
AIGC 资讯

相关推荐

AIGC 资讯

OpenDeepSearch – AI搜索工具,支持深度网络搜索和信息检索

站外新闻
AIGC 资讯

FlowGram – 字节跳动开源的可视化工作流搭建引擎

站外新闻
AIGC 资讯

GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型

站外新闻
AI 工具AIGC 资讯

InternSVG:上海AI Lab统一SVG建模套件发布,覆盖理解、编辑与生成,性能全面超越GPT-4o

站外新闻
AIGC InternSVG SVG建模 上海人工智能实验室 多模态大模型
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.