Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: EMAGE – 清华联合东大等机构推出的音频生成全身共语手势框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > EMAGE – 清华联合东大等机构推出的音频生成全身共语手势框架
AIGC 资讯

EMAGE – 清华联合东大等机构推出的音频生成全身共语手势框架

站外新闻
最近更新: 2026年6月9日 上午1:23
SHARE

EMAGE是什么

EMAGE(Expressive Masked Audio-conditioned GEsture modeling)是清华大学、东京大学、庆应义塾大学等机构推出的生成全身共语手势框架。EMAGE能根据音频和部分遮蔽的手势输入,生成与音频同步的完整全身手势,包括面部表情、身体动作、手势和全局运动。EMAGE基于掩蔽音频手势变换器实现音频到手势的生成和掩蔽手势重建的联合训练,有效编码音频和身体手势提示。EMAGE用四个组合的预训练VQ-VAE(Vector Quantized Variational AutoEncoders)解码局部面部和身体动作,基于预训练的全局运动预测器解码全局平移。

阅读目录
  • EMAGE是什么
  • EMAGE的主要功能
  • EMAGE的技术原理
  • EMAGE的项目地址
  • EMAGE的应用场景

EMAGE

EMAGE的主要功能

  • 生成与音频同步的手势:根据输入的音频信号,生成与音频节奏和语义相匹配的全身手势。
  • 接受部分预定义手势输入:基于用户提供的部分手势(如特定动作或姿势)作为提示,生成完整的、自然的手势序列。
  • 生成多样化的手势:组合多个预训练的VQ-VAE(向量量化变分自编码器),生成丰富多样的手势动作,避免单一和重复的结果。
  • 支持全身手势生成:支持生成面部和上肢动作和下肢和全局运动,实现更自然、完整的人体动画效果。

EMAGE的技术原理

  • 掩蔽音频手势变换器:在训练过程中,部分手势数据被随机遮蔽,模型基于音频和其他未遮蔽的手势信息预测遮蔽部分。掩蔽机制类似于自然语言处理中的BERT模型,能增强模型对局部和全局信息的理解能力。进行音频到手势生成和掩蔽手势重建的训练,让模型能够更好地学习音频与手势之间的映射关系,同时利用已有的手势信息(即使部分被遮蔽)来生成更准确的手势。
  • 音频特征融合:将音频的节奏特征(如音调的起伏、节奏的强弱)和内容特征(如文本转录的词嵌入)结合起来,使生成的手势既能反映音频的节奏,能与语义相关联。例如,在提到“走路”时,模型可以生成相应的行走手势。
  • 预训练的VQ-VAE:将身体的不同部分(如面部、上肢、下肢)分别用独立的VQ-VAE建模,每个VQ-VAE负责生成特定部分的动作。这种分段建模方式能更好地捕捉不同身体部位与音频之间的独特关系,提高生成手势的准确性和多样性。
  • 离散表示学习:基于VQ-VAE将连续的手势动作转换为离散的表示,便于模型学习和生成。这种离散表示类似于语言中的词汇,让模型更高效地处理和生成复杂的手势序列。
  • 全局运动预测器:除局部动作的生成,基于预训练的全局运动预测器估计身体的全局平移(如行走、转身等),让生成的手势在局部动作上自然,整体运动也更加连贯和真实。

EMAGE的项目地址

  • 项目官网:https://pantomatrix.github.io/EMAGE
  • GitHub仓库:https://github.com/PantoMatrix/EMAGE
  • arXiv技术论文:https://arxiv.org/pdf/2401.00374
  • 在线体验Demo:https://huggingface.co/spaces/H-Liu1997/EMAGE

EMAGE的应用场景

  • 虚拟现实(VR)与增强现实(AR):生成虚拟角色的自然手势和表情,提升虚拟社交、虚拟会议、虚拟游戏等场景中的交互体验,让虚拟角色更加生动逼真。
  • 动画制作:辅助动画电影、电视剧及动态广告的制作,根据对话内容自动生成角色手势和表情,减少动画师工作量,提高制作效率。
  • 虚拟客服与数字人:为在线客服、智能助手等创建自然流畅的手势和表情,在与用户交流时更具亲和力和真实感,提升用户体验。
  • 教育与培训:在教育领域,虚拟教师根据讲解内容生成相应手势,帮助学生更好地理解知识;在培训场景中,生成逼真的操作演示手势,辅助教学。
  • 娱乐行业:在游戏开发中,根据角色语音生成匹配的手势和表情,增强游戏的沉浸感和真实感。
GLM-Z1-Rumination – 智谱推出的沉思模型
告别终端Agent上下文爆炸!TACO:北航等高校开源自进化压缩框架,省Token提准确率
MAI-Image-2.5 – 微软推出的旗舰级文生图模型
ART – 微软联合清华和北大等推出的多层透明图像生成技术
AI算力需求激增!美德州将建2.5GW核燃混合电站,创新‘气转核’模式破局
分享
Email 复制链接 打印
Share
上一篇 ARTalk – 东京大学等机构推出的3D头部动画生成框架
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

ARTalk – 东京大学等机构推出的3D头部动画生成框架
AIGC 资讯
Qwen2.5-Max – 阿里通义千问推出的MoE模型
AIGC 资讯
LineArt – 吉林大学等机构推出的设计绘图外观迁移框架
AIGC 资讯
Open-LLM-VTuber – AI数字人语音交互项目,支持实时语音对话和视觉感知
AIGC 资讯

相关推荐

全息流体渐变通用占位特色图
AIGC 资讯

一季度全球AI融资破1100亿!国产大模型5月再吸金超300亿,资本正涌向这三大方向

站外新闻
AI融资 具身智能 商业化 算力基础设施
流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

高通与字节跳动达成重磅AI芯片协议:数百万颗定制ASIC驱动智能体基础设施,合规下布局2026算力竞赛

站外新闻
AI智能体 AI芯片 ASIC 字节跳动 高通
AIGC 资讯

星火纪要 – 科大讯飞推出的会议交流总结和分析平台

站外新闻
AIGC 资讯

T2I-R1 – 港中文联合上海AI Lab推出文生图模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.