Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Hallo3 – 复旦联合百度开源的高动态与真实感肖像动画生成框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Hallo3 – 复旦联合百度开源的高动态与真实感肖像动画生成框架
AIGC 资讯

Hallo3 – 复旦联合百度开源的高动态与真实感肖像动画生成框架

站外新闻
最近更新: 2026年6月9日 下午3:46
SHARE

Hallo3是什么

Hallo3是复旦大学和百度公司联合推出的,基于扩散变换器网络(Diffusion Transformer Networks)的肖像图像动画技术,能生成高度动态和逼真的视频。Hallo3基于预训练的变换器视频生成模型,有效解决现有方法在处理非正面视角、动态对象渲染和生成沉浸式背景方面的挑战。Hallo3基于新的视频骨干网络,设计身份参考网络确保视频序列中面部身份的一致性,研究了语音音频条件和运动帧机制,实现由语音音频驱动的连续视频生成。实验表明,Hallo3在生成具有多种方向的逼真肖像方面表现出色,能适应复杂姿势和动态场景,产生逼真且平滑的动画效果。

阅读目录
  • Hallo3是什么
  • Hallo3的主要功能
  • Hallo3的技术原理
  • Hallo3的项目地址
  • Hallo3的应用场景

Hallo3

Hallo3的主要功能

  • 多视角动画生成:从不同的视角(如正面、侧面、 overhead 或低角度)生成动画肖像,突破传统方法主要依赖正面视角的限制。
  • 动态对象渲染:处理肖像周围动态对象的动画,如人物手持智能手机、麦克风或佩戴紧密贴合的物品,生成对象在视频序列中的真实运动。
  • 沉浸式背景生成:生成具有动态效果的背景,如前景中的篝火或背景中的拥挤街道场景,增强视频的真实感和沉浸感。
  • 身份一致性保持:在整个视频序列中保持肖像的身份一致性,在长时间的动画中也能准确地识别和保持人物的面部特征。
  • 语音驱动的动画:基于语音音频驱动肖像的面部表情和嘴唇动作,实现高度同步的语音和面部动画,让动画更加自然和逼真。

Hallo3的技术原理

  • 预训练的变换器视频生成模型:
    • 基础架构:CogVideoX模型作为基础架构,用3D变分自编码器(VAE)对视频数据进行压缩。模型将潜在变量与文本嵌入相结合,基于专家变换器网络进行处理。
    • 条件机制:引入三种条件机制:文本提示(ctext)、语音音频条件(caudio)和身份外观条件(cid)。主要用交叉注意力(cross-attention)和自适应层归一化(adaLN)整合这些条件信息。
  • 身份参考网络:
    • 3D VAE和变换器层:用因果3D VAE结合42层变换器层的身份参考网络,从参考图像中提取身份特征,嵌入到去噪潜在代码中,基于自注意力机制增强模型对身份信息的表示和长期保持。
    • 特征融合:将参考网络生成的视觉特征与去噪网络的特征进行融合,确保生成的面部动画在长时间序列中保持一致性和连贯性。
  • 语音音频条件:
    • 音频嵌入:wav2vec框架提取音频特征,生成帧特定的音频嵌入,基于线性变换层将音频嵌入转换为适合模型的表示。
    • 交叉注意力机制:在去噪网络中,交叉注意力机制将音频嵌入与潜在编码进行交互,增强生成输出的相干性和相关性,确保模型有效地捕捉驱动角色生成的音频信号。
  • 视频外推:引入运动帧作为条件信息。将生成视频的最后几帧作为后续片段生成的输入,用3D VAE处理运动帧,生成新的潜在代码,实现时间一致的长视频推理。
  • 训练和推理:
    • 训练过程:分为两个阶段。第一阶段训练模型生成具有身份一致性的视频;第二阶段扩展到音频驱动的视频生成,整合音频注意力模块。
    • 推理过程:模型接收参考图像、驱动音频、文本提示和运动帧作为输入,生成具有身份一致性和嘴唇同步的视频。

Hallo3的项目地址

  • 项目官网:https://fudan-generative-vision.github.io/hallo3
  • GitHub仓库:https://github.com/fudan-generative-vision/hallo3
  • HuggingFace模型库:https://huggingface.co/fudan-generative-ai/hallo3
  • arXiv技术论文:https://arxiv.org/pdf/2412.00733

Hallo3的应用场景

  • 游戏开发:为游戏中的角色生成动态的肖像动画,使角色在游戏中的表现更加自然和逼真,提升玩家的游戏体验。
  • 电影制作:生成逼真的角色动画,提升电影和动画的视觉效果和沉浸感。
  • 社交媒体:为社交媒体用户生成动态头像,使用户的个人资料更加生动有趣,提升用户在社交媒体上的个性化体验。
  • 在线教育:生成虚拟讲师的动画,让在线课程更加生动和有趣,提高学生的学习兴趣和参与度。
  • 虚拟现实和增强现实:在VR和AR应用中生成虚拟角色,提供更加逼真的交互体验,增强用户的沉浸感和参与感。
BitCPM-CANN – 面壁智能联合清华开源的端侧大模型
DreamO – 字节联合北大推出的图像定制生成框架
HappyHorse AI视频生成模型空降盲测榜首:8步去噪+40层单流Transformer,断层领先60分背后的黑科技
中国首个1.58-bit三值大模型BitCPM-CANN开源发布:显存降6倍,8B模型可跑在手机上
Graphiti – 开源AI动态知识图谱生成框架
分享
Email 复制链接 打印
Share
上一篇 清华联手智谱推出IndexCache:稀疏注意力加速技术,长上下文推理提速近2倍,零性能损失
下一篇 GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

大晓机器人Kairos 3.0-4B开源:全球首个端侧具身世界模型,推理速度提升72倍!
AI 工具 AIGC 资讯
Paperclip开源平台:用AI Agent组建「赛博公司」,自主运营降本增效新范式
AI 工具 最新趋势
斯坦福重磅开源OpenJarvis:本地AI智能体框架,隐私、成本、延迟全优化
AI 工具 AIGC 资讯
智谱AI发布GLM-5-Turbo:专为龙虾Agent优化,深度解决大模型工具调用与长任务失速难题
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

Casevo – 中国传媒大学推出的开源社会传播模拟系统

站外新闻
AI 工具AIGC 资讯

斯坦·李AI声音重磅登陆ElevenLabs!漫威之父经典嗓音赋能创作者,AI语音合成迎来新纪元

站外新闻
AI语音合成 ElevenLabs Iconic Marketplace 多模态AI 斯坦·李
AIGC 资讯

Lipsync-2 – Sync Labs 推出的首个零-shot 嘴型同步模型

站外新闻
AIGC 资讯

Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI编程工具 AI编程智能体 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenClaw OpenRouter Pika prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 强化学习 形式化验证 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.