Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: ControlFoley – 小米开源的可控视频音效生成模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > ControlFoley – 小米开源的可控视频音效生成模型
AIGC 资讯

ControlFoley – 小米开源的可控视频音效生成模型

站外新闻
最近更新: 2026年6月7日 下午6:05
SHARE

ControlFoley是什么

ControlFoley是小米开源的可控视频音效生成模型,能解决V2A领域可控性难题。模型统一支持文本引导、文本控制与参考音频控制三类视频配音任务,通过自研时空音视频编码器CAV-MAE-ST、时间-音色解耦与模态鲁棒训练,实现语义对齐、时间同步与音质全面提升。模型在多个benchmark上达到开源SOTA,代码与模型权重已开放。

阅读目录
  • ControlFoley是什么
  • ControlFoley的主要功能
  • ControlFoley的技术原理
  • 如何使用ControlFoley
  • ControlFoley的核心优势
  • ControlFoley的项目地址
  • ControlFoley的同类竞品对比
  • ControlFoley的应用场景

ControlFoley

ControlFoley的主要功能

  • TV2A(文本引导视频配音):根据视频和文本提示生成同步音效,文本补充画面声音语义。
  • TC-V2A(文本控制视频配音):文本与视频语义冲突时,优先遵循文本意图,同时保持时间同步。
  • AC-V2A(参考音频控制视频配音):根据参考音频控制音色风格,不破坏视频节奏。

ControlFoley的技术原理

  • 联合视觉编码:自研 CAV-MAE-ST 时空音视频编码器,专注音视频时空对应关系,增强动作节奏与时间同步理解,与 CLIP 结合兼顾语义与同步。
  • 时间-音色解耦:抑制参考音频中的时间信息,保留全局音色特征,避免参考音频干扰视频同步。
  • 模态鲁棒训练:随机模态 dropout + 统一多模态表示对齐,适配多种输入组合;通过 REPA 对齐目标提升语义一致性。

如何使用ControlFoley

  • 获取开源资源:访问 GitHub 仓库下载代码与模型权重,或直接使用官方提供的在线 Demo 进行体验。
  • 环境配置:根据仓库说明安装依赖环境,配置 Python 运行环境与必要的音视频处理库。
  • 选择任务模式:根据创作需求选择三类任务之一:TV2A(文本引导)、TC-V2A(文本控制)或 AC-V2A(参考音频控制)。
  • 准备输入条件:导入视频文件;如选 TV2A 附加文本提示,如选 TC-V2A 输入与画面冲突的文本指令,如选 AC-V2A 上传参考音频文件。
  • 执行生成推理:运行模型推理脚本,ControlFoley 将基于联合视觉编码与时间-音色解耦机制生成与视频同步的音效。
  • 导出与后处理:获取生成音频后,通过 VAE Decoder 与 Vocoder 输出最终音轨,与视频合成完成配音。

ControlFoley的核心优势

  • 统一框架:单一模型覆盖文本引导、文本控制和参考音频控制三类任务,无需切换多个工具。
  • 精准同步:自研 CAV-MAE-ST 时空编码器增强音视频时序理解,音画对齐精度领先开源竞品。
  • 音色解耦:时间-音色解耦技术确保参考音频仅影响音色风格,不干扰视频原有节奏。
  • 鲁棒控制:随机模态 dropout 与统一表示对齐训练,使模型在单模态或多模态输入下均稳定输出。
  • 开源 SOTA:在 VGGSound-Test、Kling-Audio-Eval 等多个 benchmark 上语义对齐与声音质量全面领先。

ControlFoley的项目地址

  • 项目官网:https://yjx-research.github.io/ControlFoley_web_page/
  • GitHub仓库:https://github.com/xiaomi-research/controlfoley
  • HuggingFace模型库:https://huggingface.co/YJX-Xiaomi/ControlFoley
  • arXiv技术论文:https://arxiv.org/abs/2604.15086

ControlFoley的同类竞品对比

对比维度 ControlFoley MMAudio HunyuanVideo-Foley
任务覆盖 统一支持 TV2A / TC-V2A / AC-V2A 三类可控任务 主要支持 TV2A 基础视频配音 主要支持 TV2A 基础视频配音
文本冲突处理 强:冲突场景下 DeSync 仅 0.36-0.38,优先遵循文本意图 弱:文本易被视觉信息覆盖 弱:文本控制能力有限
参考音频控制 支持,时间-音色解耦不破坏同步 不支持 不支持
音画同步 优:CAV-MAE-ST 增强时空对应 良 良
开源状态 代码、权重、技术报告全开源 开源 开源

ControlFoley的应用场景

  • 短视频创作:为无声素材添加符合创作者意图的定制化音效,避免模型自动猜测的偏差。
  • 动画与游戏:为角色动作生成特定风格的打击声或环境音,如将普通敲门声替换为木槌击鼓声。
  • 影视后期:根据参考音频素材统一全片音效音色风格,保持品牌或系列作品的声音一致性。
  • 广告营销:按文本指令快速生成与品牌调性匹配的同步配音,强化节奏与情绪表达。
  • 自媒体直播:为直播切片或二创视频补充多模态可控的沉浸式音频,提升内容完成度。
腾讯混元3D世界模型2.0全面开源:一键文图生3D场景,兼容UE/Unity引擎,性能对标商业产品
Hermes Desktop – Nous Research 推出的 Hermes 桌面端
Odysseus – 开源的本地自托管 AI 工作空间
重磅!ChatGPT深度整合PowerPoint:用自然语言秒生幻灯片,AI办公自动化进入多模态全流程时代
上海发布AI微短剧“沪8条”:最高千万资助,全流程AI化重塑出海版图
分享
Email 复制链接 打印
Share
上一篇 Qwen3.7-Plus – 阿里通义推出的智能体多模态大模型
下一篇 阿里云百炼 CLI – 阿里云开源的 AI Agent 命令行工具
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Wall-OSS-0.5 – 自变量机器人开源的国产具身智能模型
AIGC 资讯
Qwen-Image-Bench – 通义千问推出的文生图模型评测基准
AIGC 资讯
Hermes Desktop – Hermes Agent 的桌面应用,开箱即用
AIGC 资讯
Qwen-VLA – 阿里通义推出的通用视觉-语言-动作模型
AIGC 资讯

相关推荐

流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

AI与航天三巨头集体IPO:SpaceX、OpenAI、Anthropic万亿募资潮,2026美股能否消化史上最大抽血?

站外新闻
AI上市 Anthropic openai SpaceX 美股IPO
AIGC 资讯

Toonflow – 开源的一站式 AI 短剧创作工具

站外新闻
AIGC 资讯

腾讯发布CodeBuddy Security,用AI Agent实现更高效的代码审计

站外新闻
AI 工具AIGC 资讯

一站式AI创作终端来了!开源ListenHub CLI用命令行生成音乐、播客、PPT,解放生产力

站外新闻
AIGC AI内容创作 命令行工具 开源工具 自动化工作流
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 支付宝 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.