VPP – 清华和星动纪元推出的首个AIGC机器人大模型

最近更新: 2026年6月8日下午1:59

VPP是什么

VPP（Video Prediction Policy）是清华大学和星动纪元推出的首个AIGC机器人大模型。基于预训练的视频扩散模型，学习互联网上的大量视频数据，直接预测未来场景生成机器人动作。VPP能提前预知未来，实现高频预测和动作执行，支持跨人形机器人本体切换，显著降低对高质量机器人真机数据的依赖。VPP在Calvin ABC-D基准测试中取得接近满分的成绩，在真实世界的复杂灵巧操作任务中表现出色。VPP的开源为具身智能机器人的发展提供强大的技术支持。

阅读目录

VPP是什么
VPP的主要功能
VPP的技术原理
VPP的项目地址
VPP的应用场景

VPP

VPP的主要功能

提前预测未来场景：让机器人在行动前“看到”未来，增强泛化能力。
高频预测与动作执行：实现6-10Hz的预测频率和超过50Hz的控制频率，提升动作流畅性。
跨机器人本体学习：直接学习不同形态机器人的视频数据，包括人类操作数据，降低数据获取成本。
多任务学习与泛化：在复杂的真实世界任务中表现出色，例如抓取、放置、堆叠、倒水和工具使用。
可解释性与调试优化：基于预测视频提前发现失败场景，便于开发者进行针对性优化。

VPP的技术原理

视频扩散模型（VDM）的预测性视觉表示：基于预训练的视频扩散模型（如Stable Video Diffusion）学习预测未来场景。视频扩散模型基于单步去噪生成预测性视觉表示，视觉表示包含当前帧，能明确表示未来帧。
动作学习：用Video Former聚合预测性视觉表示，提取时空信息。基于扩散策略（Diffusion Policy）生成机器人动作，实现从预测到执行的无缝过渡。
优化与泛化：VPP基于互联网视频数据和机器人操作数据进行训练，减少对高质量真机数据的依赖。基于跨本体学习，VPP能直接学习不同形态机器人的视频数据，提升模型的泛化能力。

VPP的项目地址

项目官网：https://video-prediction-policy.github.io/
GitHub仓库：https://github.com/roboterax/video-prediction-policy
arXiv技术论文：https://arxiv.org/pdf/2412.14803

VPP的应用场景

家庭服务：完成家务（倒水、拿东西）、照顾老人或儿童（递送物品）。
工业制造：用在零件抓取、货物搬运和堆叠，提高生产效率。
医疗辅助：协助手术器械传递、康复训练和病房物品递送。
教育与研究：帮助学生理解复杂操作流程，用在实验室实验操作。
服务行业：如餐厅送餐、酒店行李搬运和公共场合导览。

Oliva – 开源语音RAG助手，实时语音搜索向量数据库

LanPaint – 零训练 AI 图像修复工具

发表评价

VPP – 清华和星动纪元推出的首个AIGC机器人大模型

VPP是什么

VPP的主要功能

VPP的技术原理

VPP的项目地址

VPP的应用场景

发表评价取消回复

最近更新

CogAgent – 清华与智谱AI联合推出的多模态视觉大模型

OMNE Multiagent – 天桥脑科学研究院推出的大模型多智能体框架

DuoAttention – 提高LLMs处理长上下文推理效率的AI框架

HuggingChat macOS – Hugging Face开源的macOS聊天应用程序

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

VPP是什么

VPP的主要功能

VPP的技术原理

VPP的项目地址

VPP的应用场景

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复