Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Seer – 上海 AI Lab 联合北大等机构推出的端到端操作模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Seer – 上海 AI Lab 联合北大等机构推出的端到端操作模型
AIGC 资讯

Seer – 上海 AI Lab 联合北大等机构推出的端到端操作模型

站外新闻
最近更新: 2026年6月9日 上午1:07
SHARE

Seer是什么

Seer是由上海AI实验室、北京大学计算机科学与技术学院、北京大学软件与微电子学院等机构联合推出的端到端操作模型,实现机器人视觉预测与动作执行的高度协同。模型结合历史信息和目标信号(如语言指令),预测未来时刻的状态,用逆动力学模型生成动作信号。Seer基于Transformer的结构,处理多模态输入数据,有效融合视觉、语言和机器人本体信号。在真实机器人任务中,Seer的操作成功率较当前Sota提升43%,且在多种复杂场景下表现出优异的泛化能力。Seer在控制算法测试基准CALVIN ABC-D Benchmark中,Seer的平均任务完成长度达4.28,综合领先同类模型。

阅读目录
  • Seer是什么
  • Seer的主要功能
  • Seer的技术原理
  • Seer的项目地址
  • Seer的应用场景

Seer

Seer的主要功能

  • 动作预测:根据当前的视觉状态和目标,预测出合适的机器人动作。基于逆动力学模型估计实现目标所需的中间动作序列。
  • 视觉预测:Seer具备条件视觉预测功能,能预测未来一定时间步内的RGB图像。让机器人“预见”未来的视觉状态,更好地规划和调整动作。
  • 多模态融合:融合视觉、语言和机器人状态等多种模态的信息,实现对复杂任务的理解和执行。基于多模态编码器将不同模态的特征进行整合,为动作预测和视觉预测提供全面的上下文信息。
  • 泛化能力:经过在大规模机器人数据集上的预训练,Seer展现出强大的泛化能力,在未见场景、新物体、不同光照条件下以及面对高强度干扰时,依然保持稳定的性能。
  • 数据效率:Seer在预训练阶段用大量数据学习到丰富的先验知识,因此在下游任务中仅需要少量的微调数据即可达到较好的性能,降低数据采集和标注的成本。

Seer的技术原理

  • 端到端架构:基于端到端的架构设计,将视觉预测和逆动力学预测紧密结合在一起。在训练过程中,视觉预测模块和逆动力学模块协同优化,让模型能充分利用视觉和动作信息,实现更准确的动作预测。
  • Transformer架构:基于Transformer架构处理视觉状态和动作信息。Transformer能捕捉到视觉和动作序列中的复杂依赖关系,为模型提供强大的特征提取和表示能力。
  • 先见令牌和动作令牌:Seer引入先见令牌(foresight token)和动作令牌(action token)。先见令牌预测未来的RGB图像,动作令牌估计当前和预测未来观察之间的中间动作。两个令牌基于多模态编码器与输入的RGB图像、机器人状态和语言令牌进行融合,用单向注意力掩码实现深度的信息整合。
  • 单向注意力掩码:Seer设计特殊的单向注意力掩码,让动作令牌充分整合过去和未来的预测信息,有助于模型在多层网络中实现更深层次的信息融合,提高动作预测的准确性和鲁棒性。
  • 大规模预训练与微调:Seer首先在大规模机器人数据集(如DROID)上进行预训练,学习到丰富的视觉和动作先验知识。在下游任务中,基于少量的微调数据对模型进行调整,适应具体的任务场景和目标。

Seer的项目地址

  • 项目官网:https://nimolty.github.io/Seer
  • GitHub仓库:https://github.com/OpenRobotLab/Seer
  • arXiv技术论文:https://arxiv.org/pdf/2412.15109

Seer的应用场景

  • 工业自动化:指导机器人精准安装汽车部件,提高装配效率和质量。
  • 服务机器人:帮助服务机器人按需将物品准确送达客房,提升客户体验。
  • 医疗健康:作为虚拟手术机器人的核心,辅助医学生学习和练习手术技能。
  • 物流与仓储:自动化分拣系统快速准确地将包裹分拣到指定通道,提高分拣效率。
  • 教育行业:作为教学案例,帮助学生深入理解机器人编程的高级技术和算法。
PixVerse C1:全球首个影视行业大模型,多宫格分镜一键成片与工业级动作引擎深度解析
DeepSeek百宝箱 – DeepSeek API在多种软件中的集成应用
ElevenLabs Music v2重磅更新:实现‘一曲多变’与商业版权无忧,AI音乐进入生产力时代
Spotify Studio 桌面应用重磅发布!AI 电台+生成式音频平台深度解析
Xiaomi Auto World Model – 小米推出的辅助驾驶世界模型
分享
Email 复制链接 打印
Share
上一篇 TIGER – 清华大学推出的轻量级语音分离模型
下一篇 LaDeCo – 西安交大联合微软推出的自动图形设计构图方法
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

字节跳动发布SeedVR2:单步视频修复模型,以极低成本实现1080p高清画质革新
AI 工具 AIGC 资讯
北大微软联手突破:Next-Frame Diffusion实现30+FPS实时自回归视频生成,扩散模型与因果注意力新范式
AI 工具 AIGC 资讯
美团LLIA框架深度解析:实时音频驱动肖像视频生成,如何实现低延迟高保真交互?
AI 工具 AIGC 资讯
腾讯开源Hunyuan3D-2.1:工业级3D生成模型,支持PBR材质与多模态输入,1秒极速出图
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

Cosmos-Reason1 – NVIDIA推出的系列多模态大语言模型

站外新闻
AIGC 资讯

InternVL3 – 上海 AI Lab 开源的多模态大语言模型

站外新闻
AI 工具AIGC 资讯

TeleChat3发布:中国电信千亿参数MoE大模型,全链路国产化训练,开源36B版本

站外新闻
MoE架构 国产算力 开源模型 智能客服
AIGC 资讯

How you can find Foreign Star of the wedding

lilizhu
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.