Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: HMA – MIT联合Meta等推出的机器人动作视频动态建模方法
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > HMA – MIT联合Meta等推出的机器人动作视频动态建模方法
AIGC 资讯

HMA – MIT联合Meta等推出的机器人动作视频动态建模方法

站外新闻
最近更新: 2026年6月9日 上午8:29
SHARE

HMA是什么

HMA(Heterogeneous Masked Autoregression)是麻省理工学院、Meta和伊利诺伊大学香槟分校开源的,用在建模机器人动作视频动态的方法。HMA基于异构预训练,用不同机器人实体、领域和任务中的观测和动作序列,结合掩码自回归技术生成视频预测。HMA支持离散和连续两种变体,分别用在快速生成和高保真度生成,处理动作空间的异构性,包括不同的动作频率、维度和动作空间,基于模块化网络架构实现高效的实时交互。HMA在机器人学习中具有广泛的应用前景,包括视频模拟、策略评估、合成数据生成和作为模仿策略使用,在扩展性和实时性方面表现出色。

阅读目录
  • HMA是什么
  • HMA的主要功能
  • HMA的技术原理
  • HMA的项目地址
  • HMA的应用场景

HMA

HMA的主要功能

  • 视频模拟:生成高质量的视频序列,模拟机器人在不同环境中的动作效果,用在虚拟环境中的交互和测试。
  • 策略评估:作为高保真度的模拟器,评估机器人策略的性能,预测策略在真实环境中的表现。
  • 合成数据生成:生成大量的合成数据,增强机器人的训练数据集,提升策略的泛化能力。
  • 模仿策略:直接作为模仿学习的策略,预测机器人在给定观测下的动作。

HMA的技术原理

  • 异构预训练:
    • 数据来源:用来自不同机器人实体、任务和领域的大量观测和动作序列数据进行预训练,涵盖从简单到复杂的动作空间。
    • 动作异构性处理:基于为每个领域设计特定的动作编码器和解码器,将不同动作空间映射到共享的潜在空间中,处理动作频率、维度和动作空间的异构性。
    • 模块化架构:网络架构包括多个动作输入模块(“stem”)和动作输出模块(“head”),及共享的核心时空变换器(“trunk”),支持高效预训练和灵活扩展。
  • 掩码自回归:
    • 掩码目标:在训练时,模型基于掩码自编码目标随机掩码部分标记,并基于未掩码的标记预测掩码部分,学习序列的联合分布。
    • 自回归生成:在推理时,模型逐步取消掩码,生成未来的视频帧和动作序列。既高效又能保持高生成质量。
    • 两种变体:HMA支持离散变体(生成矢量量化标记)和连续变体(生成软标记),分别用在快速生成和高保真度生成。

HMA的项目地址

  • 项目官网:https://liruiw.github.io/hma/
  • GitHub仓库:https://github.com/liruiw/HMA
  • HuggingFace模型库:https://huggingface.co/liruiw/hma-base-disc
  • arXiv技术论文:https://arxiv.org/pdf/2502.04296
  • 在线体验Demo:https://huggingface.co/spaces/liruiw/hma

HMA的应用场景

  • 实时视频模拟:快速生成机器人在不同环境中的动作视频,用在虚拟交互测试,验证策略效果,节省实际部署成本。
  • 策略评估:作为高保真模拟器,评估机器人策略性能,预测策略在真实环境中的表现,辅助策略优化。
  • 合成数据生成:生成大量合成数据,扩充训练数据集,提升策略泛化能力,尤其在数据稀缺时效果显著。
  • 模仿学习:直接作为模仿策略,根据当前观测预测机器人动作,快速响应环境变化,提高任务执行效率。
  • 长期规划与控制:HMA支持生成长序列的视频和动作预测,助力机器人进行长期规划和模型预测控制,提升复杂任务的完成率。
PixVerse C1:全球首个影视行业大模型,多宫格分镜一键成片与工业级动作引擎深度解析
腾讯重磅开源 WeKnora:基于大模型的文档理解与语义检索框架,企业级RAG知识管理新标杆
AI创投Q1狂飙1100亿:大模型与具身智能引领技术迭代新风暴
Embodied Reasoner – 浙大联合阿里等机构推出的具身交互推理模型
Qwen2.5-Max – 阿里通义千问推出的MoE模型
分享
Email 复制链接 打印
Share
上一篇 OmniHuman – 字节跳动推出的单张照片生成全身动态视频生成框架
下一篇 Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

流光脑波AI大脑占位特色图
2026年3月美国AI榜单巨变:Claude单月狂飙130%紧追ChatGPT,格局突变信号已现
AIGC 资讯 最新趋势
得物实战揭秘:AI Coding工具如何突破数仓开发’失忆’痛点,Harness工程引领新范式
AI 工具 AIGC 资讯
全息流体渐变通用占位特色图
历史性和解!Meta妥协规避审判,美国首例学校诉社交媒体成瘾案落幕,揭示行业司法风向
AIGC 资讯
量子芯片科技感占位特色图
Spotify与环球音乐联手:AI翻唱混音工具上线,正版版权终结Suno野蛮生长
AI 工具 AIGC 资讯 最新趋势

相关推荐

AI 工具AIGC 资讯

Realtime TTS-2:Inworld AI 实时语音合成模型革新,多轮感知与跨语言控制引领下一代对话AI

站外新闻
Inworld AI Realtime TTS-2 多语言语音合成 实时语音合成 对话式AI
全息流体渐变通用占位特色图
AIGC 资讯

AI 音频编辑迈入新纪元:腾讯混元联合多家顶尖机构发布 MMAE 基准,当前模型精准编辑能力不足 5%

站外新闻
AIGC 资讯

NodeRAG – 开源基于异构图的智能检索与生成系统

站外新闻
AI 工具AIGC 资讯

昆仑万维开源Skywork-R1V 3.0:多模态推理模型横扫高考数学142分,逼近人类专家水平

站外新闻
MMMU评测 多模态大模型 开源模型 推理模型 昆仑万维
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 轻量级模型 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.