Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: TANGOFLUX – 英伟达联合新加坡科技设计大学开源的文本到音频生成模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > TANGOFLUX – 英伟达联合新加坡科技设计大学开源的文本到音频生成模型
AIGC 资讯

TANGOFLUX – 英伟达联合新加坡科技设计大学开源的文本到音频生成模型

站外新闻
最近更新: 2026年6月9日 下午4:37
SHARE

TANGOFLUX是什么

TANGOFLUX是高效的文本到音频生成模型,是新加坡科技设计大学(SUTD)和NVIDIA共同推出的。模型拥有约5.15亿参数,能在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。TANGOFLUX用CLAP-Ranked Preference Optimization(CRPO)框架,基于迭代生成和优化偏好数据来提升模型的音频对齐能力。模型在客观和主观基准测试中均展现出优异的性能,在GitHub等平台开源代码和模型,支持进一步的研究。

阅读目录
  • TANGOFLUX是什么
  • TANGOFLUX的主要功能
  • TANGOFLUX的技术原理
  • TANGOFLUX的项目地址
  • TANGOFLUX的应用场景

TANGOFLUX的主要功能

  • 高效音频生成:TANGOFLUX能快速生成高质量的音频内容,在3.7秒内生成长达30秒的44.1kHz音频。
  • 文本到音频转换:模型直接将文本描述转换为相应的音频输出,实现文本到音频的直接转换。
  • 偏好优化:TANGOFLUX能优化音频输出更好地符合用户的偏好和输入文本的意图。
  • 非专有数据训练:基于非专有数据集进行训练,让模型更加开放和可访问。

TANGOFLUX的技术原理

  • 变分自编码器:用VAE将音频波形编码成潜在的表示,从潜在表示中重构原始音频。
  • 文本和时长嵌入:模型基于文本编码和时长编码来控制生成音频的内容和时长,实现对音频的可控生成。
  • FluxTransformer架构:基于FluxTransformer块构建,结合Diffusion Transformer (DiT) 和 Multimodal Diffusion Transformer (MMDiT),处理文本提示和生成音频。
  • 流匹配(Flow Matching, FM):基于流匹配框架,学习从简单先验分布到复杂目标分布的映射,生成样本。
  • CLAP-Ranked Preference Optimization (CRPO):CRPO框架基于迭代生成偏好数据对,优化音频对齐。用CLAP模型作为代理奖励模型,基于文本和音频的联合嵌入来评估音频输出的质量,并据此构建偏好数据集,进行偏好优化。
  • 直接偏好优化:TANGOFLUX将DPO应用于流匹配,比较获胜和失败的音频样本来优化模型,提高音频与文本描述的对齐度。

TANGOFLUX的项目地址

  • 项目官网:tangoflux.github.io
  • GitHub仓库:https://github.com/declare-lab/TangoFlux
  • HuggingFace模型库:https://huggingface.co/declare-lab/TangoFlux
  • arXiv技术论文:https://export.arxiv.org/pdf/2412.21037
  • 在线体验Demo:https://huggingface.co/spaces/declare-lab/TangoFlux

TANGOFLUX的应用场景

  • 多媒体内容创作:在电影、游戏、广告和视频制作中,用在生成背景音乐、声效和配音,提高制作效率并降低成本。
  • 音频制作和设计:音乐制作人和声音设计师创作新的音乐作品或设计特定的声音效果。
  • 播客和有声书:为播客或有声书自动生成背景音乐和声效,增强听众的听觉体验。
  • 教育和培训:在教育领域,创建模拟真实场景的音频,辅助语言学习或专业技能训练。
  • 虚拟助手和聊天机器人:为虚拟助手和聊天机器人提供更自然、更丰富的语音响应,提升用户交互体验。
腾讯重拳出击!《三角洲行动》AI视觉外挂遭封号十年+刑事追诉,游戏反作弊进入’AI反制AI’时代
Xianyu AutoAgent – AI闲鱼客服机器人,支持多专家协同决策
EMO2 – 阿里研究院推出的音频驱动头像视频生成技术
Miras – 谷歌推出的深度学习架构设计通用框架
日本Datasection携手OpenAI:TAIZA云平台深度整合API,赋能亚太企业智能工作流
分享
Email 复制链接 打印
Share
上一篇 GeneralDyG – 南洋理工推出的通用动态图异常检测方法
下一篇 Cursor Composer 2模型发布:$2.50/M token逼近GPT-5.4,AI编程Agent性价比新标杆
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

智谱GLM-4.6V多模态大模型开源:106B参数性能比肩235B,视觉工具调用引领AI Agent新范式
AI 工具 AIGC 资讯
蚂蚁集团开源Ming-Flash-Omni 2.0:100B参数全模态大模型,统一视觉、语音、图像生成的SOTA级AIGC引擎
AI 工具 AIGC 资讯
GPT‑5.3 Instant正式发布:OpenAI免费轻量级模型,幻觉率降低27%|AI聊天革命
AI 工具 AIGC 资讯
GPT-5.4发布:OpenAI旗舰AI模型首次超越人类水平,如何重新定义专业工作与自动化?
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

ProtGPS – 麻省理工学院等机构推出的蛋白质语言模型

站外新闻
AI 工具AIGC 资讯最新趋势

谷歌强推AI搜索遭反噬,DuckDuckGo下载量飙升30%:隐私搜索如何逆势崛起?

站外新闻
AI Overviews DuckDuckGo 用户选择权 谷歌AI搜索 隐私保护
AI 工具AIGC 资讯

GLM-5.1-HighSpeed 震撼发布:400 tokens/s 极速引擎,智谱AI如何重新定义大模型速度天花板?

站外新闻
AI推理加速 Coding Agent GLM-5.1 大模型API 智谱AI
AI 工具AIGC 资讯

高考期间AI工具集体‘熔断’!豆包禁用拍题、腾讯元宝延续不答题,行业自律转向精准治理

站外新闻
AI工具 腾讯元宝 豆包 高考
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek Gemini GPT-5.4 GPT-5.5 MCP协议 meta Midjourney MiniMax MoE架构 NVIDIA openai OpenClaw prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 全模态大模型 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大模型推理 大语言模型 字节跳动 家居 小红书 展台 开源 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 教程 早报 智能体编程 智谱AI 月之暗面 本地AI 海报设计 清华大学 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 端侧部署 网络安全 腾讯 腾讯混元 英伟达 蚂蚁集团 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.