TANGOFLUX – 英伟达联合新加坡科技设计大学开源的文本到音频生成模型

TANGOFLUX是什么

TANGOFLUX是高效的文本到音频生成模型，是新加坡科技设计大学（SUTD）和NVIDIA共同推出的。模型拥有约5.15亿参数，能在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。TANGOFLUX用CLAP-Ranked Preference Optimization（CRPO）框架，基于迭代生成和优化偏好数据来提升模型的音频对齐能力。模型在客观和主观基准测试中均展现出优异的性能，在GitHub等平台开源代码和模型，支持进一步的研究。

阅读目录

TANGOFLUX是什么
TANGOFLUX的主要功能
TANGOFLUX的技术原理
TANGOFLUX的项目地址
TANGOFLUX的应用场景

TANGOFLUX的主要功能

高效音频生成：TANGOFLUX能快速生成高质量的音频内容，在3.7秒内生成长达30秒的44.1kHz音频。
文本到音频转换：模型直接将文本描述转换为相应的音频输出，实现文本到音频的直接转换。
偏好优化：TANGOFLUX能优化音频输出更好地符合用户的偏好和输入文本的意图。
非专有数据训练：基于非专有数据集进行训练，让模型更加开放和可访问。

TANGOFLUX的技术原理

变分自编码器：用VAE将音频波形编码成潜在的表示，从潜在表示中重构原始音频。
文本和时长嵌入：模型基于文本编码和时长编码来控制生成音频的内容和时长，实现对音频的可控生成。
FluxTransformer架构：基于FluxTransformer块构建，结合Diffusion Transformer (DiT) 和 Multimodal Diffusion Transformer (MMDiT)，处理文本提示和生成音频。
流匹配（Flow Matching, FM）：基于流匹配框架，学习从简单先验分布到复杂目标分布的映射，生成样本。
CLAP-Ranked Preference Optimization (CRPO)：CRPO框架基于迭代生成偏好数据对，优化音频对齐。用CLAP模型作为代理奖励模型，基于文本和音频的联合嵌入来评估音频输出的质量，并据此构建偏好数据集，进行偏好优化。
直接偏好优化：TANGOFLUX将DPO应用于流匹配，比较获胜和失败的音频样本来优化模型，提高音频与文本描述的对齐度。

TANGOFLUX的项目地址

项目官网：tangoflux.github.io
GitHub仓库：https://github.com/declare-lab/TangoFlux
HuggingFace模型库：https://huggingface.co/declare-lab/TangoFlux
arXiv技术论文：https://export.arxiv.org/pdf/2412.21037
在线体验Demo：https://huggingface.co/spaces/declare-lab/TangoFlux

TANGOFLUX的应用场景

多媒体内容创作：在电影、游戏、广告和视频制作中，用在生成背景音乐、声效和配音，提高制作效率并降低成本。
音频制作和设计：音乐制作人和声音设计师创作新的音乐作品或设计特定的声音效果。
播客和有声书：为播客或有声书自动生成背景音乐和声效，增强听众的听觉体验。
教育和培训：在教育领域，创建模拟真实场景的音频，辅助语言学习或专业技能训练。
虚拟助手和聊天机器人：为虚拟助手和聊天机器人提供更自然、更丰富的语音响应，提升用户交互体验。

TANGOFLUX – 英伟达联合新加坡科技设计大学开源的文本到音频生成模型

TANGOFLUX是什么

TANGOFLUX的主要功能

TANGOFLUX的技术原理

TANGOFLUX的项目地址

TANGOFLUX的应用场景

发表评价取消回复

最近更新

Pixar 3D Style Character Storyboard

OpenAI 把安全审查塞进命令行：Codex Security CLI 开源，让漏洞在 CI 里自己现形

AI让漏洞发现速度飙升，今年安全缺陷数量预计翻番，黑客也在加速跟上

Luxury personal color profile layout

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

TANGOFLUX是什么

TANGOFLUX的主要功能

TANGOFLUX的技术原理

TANGOFLUX的项目地址

TANGOFLUX的应用场景

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复