Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: ControlFoley – 小米开源的可控视频音效生成模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > ControlFoley – 小米开源的可控视频音效生成模型
AIGC 资讯

ControlFoley – 小米开源的可控视频音效生成模型

站外新闻
最近更新: 2026年6月7日 下午6:05
SHARE

ControlFoley是什么

ControlFoley是小米开源的可控视频音效生成模型,能解决V2A领域可控性难题。模型统一支持文本引导、文本控制与参考音频控制三类视频配音任务,通过自研时空音视频编码器CAV-MAE-ST、时间-音色解耦与模态鲁棒训练,实现语义对齐、时间同步与音质全面提升。模型在多个benchmark上达到开源SOTA,代码与模型权重已开放。

阅读目录
  • ControlFoley是什么
  • ControlFoley的主要功能
  • ControlFoley的技术原理
  • 如何使用ControlFoley
  • ControlFoley的核心优势
  • ControlFoley的项目地址
  • ControlFoley的同类竞品对比
  • ControlFoley的应用场景

ControlFoley

ControlFoley的主要功能

  • TV2A(文本引导视频配音):根据视频和文本提示生成同步音效,文本补充画面声音语义。
  • TC-V2A(文本控制视频配音):文本与视频语义冲突时,优先遵循文本意图,同时保持时间同步。
  • AC-V2A(参考音频控制视频配音):根据参考音频控制音色风格,不破坏视频节奏。

ControlFoley的技术原理

  • 联合视觉编码:自研 CAV-MAE-ST 时空音视频编码器,专注音视频时空对应关系,增强动作节奏与时间同步理解,与 CLIP 结合兼顾语义与同步。
  • 时间-音色解耦:抑制参考音频中的时间信息,保留全局音色特征,避免参考音频干扰视频同步。
  • 模态鲁棒训练:随机模态 dropout + 统一多模态表示对齐,适配多种输入组合;通过 REPA 对齐目标提升语义一致性。

如何使用ControlFoley

  • 获取开源资源:访问 GitHub 仓库下载代码与模型权重,或直接使用官方提供的在线 Demo 进行体验。
  • 环境配置:根据仓库说明安装依赖环境,配置 Python 运行环境与必要的音视频处理库。
  • 选择任务模式:根据创作需求选择三类任务之一:TV2A(文本引导)、TC-V2A(文本控制)或 AC-V2A(参考音频控制)。
  • 准备输入条件:导入视频文件;如选 TV2A 附加文本提示,如选 TC-V2A 输入与画面冲突的文本指令,如选 AC-V2A 上传参考音频文件。
  • 执行生成推理:运行模型推理脚本,ControlFoley 将基于联合视觉编码与时间-音色解耦机制生成与视频同步的音效。
  • 导出与后处理:获取生成音频后,通过 VAE Decoder 与 Vocoder 输出最终音轨,与视频合成完成配音。

ControlFoley的核心优势

  • 统一框架:单一模型覆盖文本引导、文本控制和参考音频控制三类任务,无需切换多个工具。
  • 精准同步:自研 CAV-MAE-ST 时空编码器增强音视频时序理解,音画对齐精度领先开源竞品。
  • 音色解耦:时间-音色解耦技术确保参考音频仅影响音色风格,不干扰视频原有节奏。
  • 鲁棒控制:随机模态 dropout 与统一表示对齐训练,使模型在单模态或多模态输入下均稳定输出。
  • 开源 SOTA:在 VGGSound-Test、Kling-Audio-Eval 等多个 benchmark 上语义对齐与声音质量全面领先。

ControlFoley的项目地址

  • 项目官网:https://yjx-research.github.io/ControlFoley_web_page/
  • GitHub仓库:https://github.com/xiaomi-research/controlfoley
  • HuggingFace模型库:https://huggingface.co/YJX-Xiaomi/ControlFoley
  • arXiv技术论文:https://arxiv.org/abs/2604.15086

ControlFoley的同类竞品对比

对比维度 ControlFoley MMAudio HunyuanVideo-Foley
任务覆盖 统一支持 TV2A / TC-V2A / AC-V2A 三类可控任务 主要支持 TV2A 基础视频配音 主要支持 TV2A 基础视频配音
文本冲突处理 强:冲突场景下 DeSync 仅 0.36-0.38,优先遵循文本意图 弱:文本易被视觉信息覆盖 弱:文本控制能力有限
参考音频控制 支持,时间-音色解耦不破坏同步 不支持 不支持
音画同步 优:CAV-MAE-ST 增强时空对应 良 良
开源状态 代码、权重、技术报告全开源 开源 开源

ControlFoley的应用场景

  • 短视频创作:为无声素材添加符合创作者意图的定制化音效,避免模型自动猜测的偏差。
  • 动画与游戏:为角色动作生成特定风格的打击声或环境音,如将普通敲门声替换为木槌击鼓声。
  • 影视后期:根据参考音频素材统一全片音效音色风格,保持品牌或系列作品的声音一致性。
  • 广告营销:按文本指令快速生成与品牌调性匹配的同步配音,强化节奏与情绪表达。
  • 自媒体直播:为直播切片或二创视频补充多模态可控的沉浸式音频,提升内容完成度。
VoxCPM:面壁智能联合清华推出0.5B参数语音模型,实现业界顶尖零样本克隆与实时合成
字节&浙大联手:InfinityHuman如何用AI数字人技术彻底改变虚拟主播、教育和客服?
3DV-TON – 阿里达摩院联合浙大等推出的视频虚拟试穿框架
Hi3DGen – 港中文、字节、清华联合推出的3D几何生成框架
Mureka O1 – 昆仑万维推出的音乐推理大模型
分享
Email 复制链接 打印
Share
上一篇 Qwen3.7-Plus – 阿里通义推出的智能体多模态大模型
下一篇 阿里云百炼 CLI – 阿里云开源的 AI Agent 命令行工具
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能
AI 工具 AIGC 资讯
腾讯清华重磅开源MindOmni:强化学习驱动的多模态推理生成模型,重塑视觉AI边界
AI 工具 AIGC 资讯
联影智能发布‘元智’医疗大模型:多模态融合,一次CT扫描诊断37种疾病
AI 工具 AIGC 资讯
Dive3D重磅发布:北大x小红书联手破解文本生成3D多样性难题,SIM损失取代KL散度实现模式突破
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

MoshiVis – Kyutai 开源的多模态实时语音模型

站外新闻
AI 工具AIGC 资讯

阿里通义MirrorMe:AI音频驱动肖像动画框架,实时生成高保真虚拟人

站外新闻
AIGC 数字人 阿里通义 音频驱动
AIGC 资讯

Midjourney 不同画面艺术流派风格 Prompts 对人像生成效果的影响

OZ
AI人像 AI生成 AI绘画 Midjourney prompt 人像
AI 工具AIGC 资讯

ZCube架构深度解析:智谱AI联合清华发布,如何降低33%网络成本并提升40%推理性能?

站外新闻
PD分离部署 ZCube 大模型推理 智谱AI 网络架构
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.