Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 中科院联手中国电信发布MTVCrafter:3D运动驱动、4D标记化技术,视频生成质量飙升65%
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 中科院联手中国电信发布MTVCrafter:3D运动驱动、4D标记化技术,视频生成质量飙升65%
AI 工具AIGC 资讯

中科院联手中国电信发布MTVCrafter:3D运动驱动、4D标记化技术,视频生成质量飙升65%

站外新闻
最近更新: 2026年6月7日 下午8:28
4D运动标记化 AIGC 人像动画生成 视频扩散Transformer 计算机视觉
SHARE

💡 站外导读:人像动画生成是AIGC领域的核心赛道,但传统方法长期依赖2D渲染姿态图像,导致运动信息丢失和3D理解不足,制约了动画质量与泛化能力。近日,中科院深圳先进技术研究院与中国电信人工智能研究所联合推出MTVCrafter,通过直接建模原始3D运动序列,从底层突破了这一瓶颈,为高质量数字人内容生成开辟了新路径。

MTVCrafter是什么

MTVCrafter是中国科学院深圳先进技术研究院计算机视觉与模式识别实验室、中国电信人工智能研究所等机构推出的新型人类图像动画框架,基于原始3D运动序列进行高质量动画生成。框架基于4D运动标记化(4DMoT)直接对3D运动数据进行建模,避免传统方法中依赖2D渲染姿态图像的局限性。框架引入运动感知视频扩散Transformer(MV-DiT),用独特的4D运动注意力和位置编码,有效用4D运动标记作为动画生成的上下文。MTVCrafter在TikTok基准测试中取得6.98的FID-VID成绩,比第二名的方法高出65%,展现出强大的泛化能力和鲁棒性。

阅读目录
  • MTVCrafter是什么
  • MTVCrafter的主要功能
  • MTVCrafter的技术原理
  • MTVCrafter的项目地址
  • MTVCrafter的应用场景
      • 📝 站长洞察 (Editor’s Insight)

MTVCrafter

MTVCrafter的主要功能

  • 高质量动画生成:直接对3D运动序列进行建模,生成高质量、自然且连贯的人类动画视频。
  • 强大的泛化能力:支持泛化到未见的运动和角色,包括单个和多个角色、全身和半身角色,涵盖多种风格(如动漫、像素艺术、水墨画和写实风格)。
  • 精确的运动控制:jiyu 4D运动标记化和运动注意力机制,实现对运动序列的精确控制,确保动画的准确性和一致性。
  • 身份一致性保持:在动画生成过程中,保持参考图像的身份特征,避免身份漂移或失真。

MTVCrafter的技术原理

  • 4D运动标记化器(4DMoT):4DMoT用编码器-解码器结构,基于2D卷积和残差块处理时间(帧)和空间(关节)维度的数据,用向量量化器将连续的运动特征映射到离散的标记空间。标记在统一的空间中表示,便于后续的动画生成。
  • 运动感知视频扩散Transformer(MV-DiT):设计4D运动注意力机制,将4D运动标记与视觉标记(如视频帧)结合。基于4D旋转位置编码(RoPE),恢复因标记化和展平丢失的时空关系。引入运动感知的分类器自由引导,基于学习无条件和条件生成的联合表示,提高生成质量和泛化能力。用简单但有效的重复和拼接策略,将参考图像与噪声视频潜变量结合,确保身份一致性。

MTVCrafter的项目地址

  • GitHub仓库:https://github.com/DINGYANB/MTVCrafter
  • arXiv技术论文:https://arxiv.org/pdf/2505.10238

MTVCrafter的应用场景

  • 数字人动画:为虚拟主播、客服、偶像等数字人生成自然流畅的动作和表情。
  • 虚拟试穿:结合用户照片和服装,生成动态试穿效果,提升购物体验。
  • 沉浸式内容:在VR和AR中生成与用户动作同步的虚拟角色动画,增强沉浸感。
  • 影视特效:快速生成高质量角色动画,降低制作成本,提升特效表现力。
  • 社交媒体:让用户结合照片和动作创作个性化动画,增加内容趣味性。

📝 站长洞察 (Editor’s Insight)

MTVCrafter的发布,标志着视频生成范式正从2D图像驱动向4D时空联合建模的关键跃迁。其核心在于用4D运动标记化将复杂的3D关节运动映射到统一的离散空间,再通过创新的运动感知Video DiT架构进行生成,这解决了传统方法在运动细节保持与跨风格泛化上的顽疾。尤其值得关注的是,它实现了前所未有的身份一致性保持能力,这对于虚拟数字人、影视特效等商业落地场景至关重要。从更宏观的视角看,随着多模态大模型与3D/4D技术的深度融合,AI生成内容正从“形似”迈向“神似”,MTVCrafter为这一趋势提供了强有力的技术注脚,也预示着下一个爆发点将集中在如何让AI理解并精准控制时空动态信息。

《AI伦理安全指引1.0》重磅发布:阿里华为等联合起草,为大模型落地装上“安全闸”,开启合规新纪元
标小智AI改图神器
腾讯混元SRPO:10分钟极速优化,文生图模型真实感与审美双重突破
MeetGeek
Oumi – 开源 AI 平台,支持 1000 万到 4050 亿参数模型训练
TAGGED:4D运动标记化AIGC人像动画生成视频扩散Transformer计算机视觉
分享
Email 复制链接 打印
Share
上一篇 Morphik:开源多模态RAG工具,用视觉理解革新文档检索与知识管理
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Morphik:开源多模态RAG工具,用视觉理解革新文档检索与知识管理
AI 工具
AgenticSeek:开源本地AI Agent深度解析|Manus平替,自主执行任务全指南
AI 工具 AIGC 资讯
Slidev开源AI演示工具:用Markdown秒变专业幻灯片,开发者与教育者必备
AI 工具
揭秘Company Research Agent:AI多智能体一键生成深度公司报告,革新投资尽调效率
AI 工具

相关推荐

AI 工具

AskGPT

remaker
AI 工具AIGC 资讯

腾讯混元 Hy-MT2 开源翻译大模型:7B 参数性能碾压 Gemini,440MB 量化版让手机变身离线翻译机

站外新闻
Hy-MT2 开源模型 端侧部署 翻译大模型 腾讯混元
AIGC 资讯

Rowboat – 开源AI编程工具,快速构建多智能体助手

站外新闻
AIGC 资讯

Casevo – 中国传媒大学推出的开源社会传播模拟系统

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 轻量级模型 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.