Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: HunyuanCustom – 腾讯混元开源的多模态定制视频生成框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > HunyuanCustom – 腾讯混元开源的多模态定制视频生成框架
AIGC 资讯

HunyuanCustom – 腾讯混元开源的多模态定制视频生成框架

站外新闻
最近更新: 2026年6月8日 上午6:59
SHARE

HunyuanCustom是什么

HunyuanCustom是腾讯混元团队推出的多模态驱动的定制化视频生成框架。HunyuanCustom支持图像、音频、视频和文本等多种输入条件,支持生成具有特定主体和场景的高质量视频。引入基于LLaVA的文本-图像融合模块和图像ID增强模块,HunyuanCustom在身份一致性、真实感和文本-视频对齐方面显著优于现有方法。框架支持音频驱动和视频驱动的视频生成,广泛用在虚拟人广告、虚拟试穿和视频编辑等领域,展示强大的可控性和灵活性。

阅读目录
  • HunyuanCustom是什么
  • HunyuanCustom的主要功能
  • HunyuanCustom的技术原理
  • HunyuanCustom的项目地址
  • HunyuanCustom的应用场景

HunyuanCustom

HunyuanCustom的主要功能

  • 单主体视频定制化:根据输入的图像和文本描述生成视频,确保主体身份一致性。
  • 多主体视频定制化:支持多个主体的交互生成,处理复杂的多主体场景。
  • 音频驱动视频定制化:根据音频和文本描述生成视频,支持灵活的音频驱动动画。
  • 视频驱动视频定制化:支持基于视频输入的对象替换或添加,用在视频编辑和对象替换。
  • 虚拟人广告和虚拟试穿:生成虚拟人与产品互动的广告视频,或进行虚拟试穿展示。
  • 灵活的场景生成:根据文本描述生成不同场景下的视频,支持多样化的内容创作。

HunyuanCustom的技术原理

  • 多模态融合模块:
    • 文本图像融合模块:基于 LLaVA,将图像中的身份信息与文本描述进行融合,增强多模态理解能力。
    • 图像 ID 增强模块:基于时间轴上的信息拼接,用视频模型的时间建模能力,强化主体身份特征,确保视频生成中的身份一致性。
  • 音频驱动机制:AudioNet 模块基于空间交叉注意力机制,将音频特征注入视频特征中,实现音频与视频的层次化对齐,支持音频驱动的视频生成。
  • 视频驱动机制:视频特征对齐模块,将输入视频通过 VAE 压缩到潜在空间,基于 patchify 模块进行特征对齐,确保与噪声潜变量的特征一致性。
  • 身份解耦模块:基于身份解耦的视频条件模块,将视频特征高效注入到潜在空间,支持视频驱动的视频生成。
  • 数据处理与增强:基于严格的预处理流程,包括视频分割、文本过滤、主体提取和数据增强,确保输入数据的高质量,提升模型性能。

HunyuanCustom的项目地址

  • 项目官网:https://hunyuancustom.github.io/
  • GitHub仓库:https://github.com/Tencent/HunyuanCustom
  • HuggingFace模型库:https://huggingface.co/tencent/HunyuanCustom
  • arXiv技术论文:https://arxiv.org/pdf/2505.04512v1

HunyuanCustom的应用场景

  • 虚拟人广告:生成虚拟人与产品互动的广告视频,增强吸引力。
  • 虚拟试穿:上传照片生成试穿不同服装的视频,提升购物体验。
  • 视频编辑:替换或添加视频中的对象,增强编辑灵活性。
  • 音频驱动动画:根据音频生成同步的视频动画,用在虚拟直播或动画制作。
  • 教育视频:结合文本和图像生成教学视频,提升学习效果。
Infinite Mobility – 上海 AI Lab 推出的可交互物体生成模型
AvatarGO – 南洋理工联合上海 AI Lab 等推出的4D人体与物体交互生成框架
谢赛宁团队开源Solaris:首个多人视频世界生成模型,突破AI世界模拟新边界
心影大模型 – 心影随形推出的AI模型,深度融合游戏攻略与角色陪伴
Languine – 面向开发者自动化应用程序的多语言翻译 AI 工具
分享
Email 复制链接 打印
Share
上一篇 DistilQwen2.5-R1 – 阿里推出的小型系列深度推理模型
下一篇 Botgroup.chat – 开源的AI机器人群聊项目,支持多个AI模型群聊对话
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

快手OneRec:颠覆传统推荐!端到端生成式AI系统引爆观看时长与GMV
AI 工具 AIGC 资讯
Kimi-Researcher:月之暗面端到端强化学习Agent,深度研究基准测试超Claude 4 Opus
AI 工具 AIGC 资讯
华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能
AI 工具 AIGC 资讯
腾讯清华重磅开源MindOmni:强化学习驱动的多模态推理生成模型,重塑视觉AI边界
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

风宇 – 中国气象局联合华为和南昌大学推出的空间天气大模型

站外新闻
AI 工具AIGC 资讯

陈天桥团队重磅开源EverMemOS:AI长期记忆操作系统,让AI像人脑一样记忆

站外新闻
AI记忆系统 EverMemOS 盛大 长期记忆 陈天桥
AI 工具AIGC 资讯

智谱AI开源GLM-4.1V-Thinking:9B参数模型性能超越72B,视觉语言模型迎来‘思考’时代

站外新闻
AIGC GLM-4.1V-Thinking 思维链推理 智谱AI 视觉语言模型
量子芯片科技感占位特色图
AI 工具AIGC 资讯最新趋势

2026游戏AI革命:从降本增效到重塑体验,中国厂商如何把握关键赛点?

站外新闻
AI原生游戏 VISVISE 和平精英 游戏AI 游戏工业化
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.