Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: EMAGE – 清华联合东大等机构推出的音频生成全身共语手势框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > EMAGE – 清华联合东大等机构推出的音频生成全身共语手势框架
AIGC 资讯

EMAGE – 清华联合东大等机构推出的音频生成全身共语手势框架

站外新闻
最近更新: 2026年6月9日 上午1:23
SHARE

EMAGE是什么

EMAGE(Expressive Masked Audio-conditioned GEsture modeling)是清华大学、东京大学、庆应义塾大学等机构推出的生成全身共语手势框架。EMAGE能根据音频和部分遮蔽的手势输入,生成与音频同步的完整全身手势,包括面部表情、身体动作、手势和全局运动。EMAGE基于掩蔽音频手势变换器实现音频到手势的生成和掩蔽手势重建的联合训练,有效编码音频和身体手势提示。EMAGE用四个组合的预训练VQ-VAE(Vector Quantized Variational AutoEncoders)解码局部面部和身体动作,基于预训练的全局运动预测器解码全局平移。

阅读目录
  • EMAGE是什么
  • EMAGE的主要功能
  • EMAGE的技术原理
  • EMAGE的项目地址
  • EMAGE的应用场景

EMAGE

EMAGE的主要功能

  • 生成与音频同步的手势:根据输入的音频信号,生成与音频节奏和语义相匹配的全身手势。
  • 接受部分预定义手势输入:基于用户提供的部分手势(如特定动作或姿势)作为提示,生成完整的、自然的手势序列。
  • 生成多样化的手势:组合多个预训练的VQ-VAE(向量量化变分自编码器),生成丰富多样的手势动作,避免单一和重复的结果。
  • 支持全身手势生成:支持生成面部和上肢动作和下肢和全局运动,实现更自然、完整的人体动画效果。

EMAGE的技术原理

  • 掩蔽音频手势变换器:在训练过程中,部分手势数据被随机遮蔽,模型基于音频和其他未遮蔽的手势信息预测遮蔽部分。掩蔽机制类似于自然语言处理中的BERT模型,能增强模型对局部和全局信息的理解能力。进行音频到手势生成和掩蔽手势重建的训练,让模型能够更好地学习音频与手势之间的映射关系,同时利用已有的手势信息(即使部分被遮蔽)来生成更准确的手势。
  • 音频特征融合:将音频的节奏特征(如音调的起伏、节奏的强弱)和内容特征(如文本转录的词嵌入)结合起来,使生成的手势既能反映音频的节奏,能与语义相关联。例如,在提到“走路”时,模型可以生成相应的行走手势。
  • 预训练的VQ-VAE:将身体的不同部分(如面部、上肢、下肢)分别用独立的VQ-VAE建模,每个VQ-VAE负责生成特定部分的动作。这种分段建模方式能更好地捕捉不同身体部位与音频之间的独特关系,提高生成手势的准确性和多样性。
  • 离散表示学习:基于VQ-VAE将连续的手势动作转换为离散的表示,便于模型学习和生成。这种离散表示类似于语言中的词汇,让模型更高效地处理和生成复杂的手势序列。
  • 全局运动预测器:除局部动作的生成,基于预训练的全局运动预测器估计身体的全局平移(如行走、转身等),让生成的手势在局部动作上自然,整体运动也更加连贯和真实。

EMAGE的项目地址

  • 项目官网:https://pantomatrix.github.io/EMAGE
  • GitHub仓库:https://github.com/PantoMatrix/EMAGE
  • arXiv技术论文:https://arxiv.org/pdf/2401.00374
  • 在线体验Demo:https://huggingface.co/spaces/H-Liu1997/EMAGE

EMAGE的应用场景

  • 虚拟现实(VR)与增强现实(AR):生成虚拟角色的自然手势和表情,提升虚拟社交、虚拟会议、虚拟游戏等场景中的交互体验,让虚拟角色更加生动逼真。
  • 动画制作:辅助动画电影、电视剧及动态广告的制作,根据对话内容自动生成角色手势和表情,减少动画师工作量,提高制作效率。
  • 虚拟客服与数字人:为在线客服、智能助手等创建自然流畅的手势和表情,在与用户交流时更具亲和力和真实感,提升用户体验。
  • 教育与培训:在教育领域,虚拟教师根据讲解内容生成相应手势,帮助学生更好地理解知识;在培训场景中,生成逼真的操作演示手势,辅助教学。
  • 娱乐行业:在游戏开发中,根据角色语音生成匹配的手势和表情,增强游戏的沉浸感和真实感。
Chatbox AI – 开源的AI客户端助手,支持多种主流AI模型
Resume Matcher – 开源AI简历优化工具,解析简历和职位描述提供改进建议
阶跃星辰StepAudio 2.5 Realtime重磅发布:端到端实时语音大模型,实现真人级对话、千万人设自定义与行业评测全面领先
Seaweed-7B – 字节推出的视频生成模型
NotaGen – 中央音乐学院联合北航、清华等推出的音乐生成模型
分享
Email 复制链接 打印
Share
上一篇 ARTalk – 东京大学等机构推出的3D头部动画生成框架
下一篇 GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

FlowDirector:无需训练,一文看懂西湖&中南大学如何用ODE革新AI视频编辑,精准指令直达
AI 工具 AIGC 资讯
字节跳动DreamActor-H1:DiT框架革新电商视频生成,3D动作引导+身份保留引领AIGC商业化
AI 工具
Kimi-Dev 72B 开源代码模型登顶SWE-bench!月之暗面发布,超越DeepSeek-R1,编程能力堪比闭源模型
AI 工具 AIGC 资讯
ThinkChain开源框架:实时反馈工具结果,让AI(如Claude)思考更智能、决策更精准
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

智谱GLM-4.7重磅发布:编码能力登顶开源榜,三大思考模式重塑AI开发

站外新闻
GLM-4.7 开源模型 智谱AI 编程助手
AI 工具AIGC 资讯

OpenHuman:开源AI桌面助手革命,主动感知工作上下文,集成118+应用构建你的私人知识网络

站外新闻
AI Agent Obsidian 开源AI助手 本地记忆 桌面AI
AI 工具AIGC 资讯

腾讯混元 Hy-MT2 开源翻译大模型:7B 参数性能碾压 Gemini,440MB 量化版让手机变身离线翻译机

站外新闻
Hy-MT2 开源模型 端侧部署 翻译大模型 腾讯混元
AIGC 资讯

Hermes Desktop – Nous Research 推出的 Hermes 桌面端

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.