Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: AudioX – 港科大联合月之暗面推出的扩散变换器模型,任意内容生成音频
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > AudioX – 港科大联合月之暗面推出的扩散变换器模型,任意内容生成音频
AIGC 资讯

AudioX – 港科大联合月之暗面推出的扩散变换器模型,任意内容生成音频

站外新闻
最近更新: 2026年6月8日 下午10:17
SHARE

AudioX是什么

AudioX 是香港科技大学和月之暗面联合提出的统一扩散变压器模型,专门用于从任意内容生成音频和音乐。模型能处理多种输入模态,包括文本、视频、图像、音乐和音频,生成高质量的音频输出。核心创新在于多模态掩码训练策略,通过随机掩码输入模态,迫使模型从不完整的输入中学习,增强跨模态表示能力。

阅读目录
  • AudioX是什么
  • AudioX的主要功能
  • AudioX的技术原理
  • AudioX的项目地址
  • AudioX的应用场景

AudioX

AudioX的主要功能

  • 多模态输入支持
    • 文本到音频(Text-to-Audio):根据文本描述生成相应的音效。例如,输入“狗吠声”,模型可以生成狗吠的音频。
    • 视频到音频(Video-to-Audio):根据视频内容生成与之匹配的音效。例如,输入一个汽车行驶的视频,模型可以生成汽车发动机的声音。
    • 图像到音频(Image-to-Audio):根据图像内容生成相应的音效。例如,输入一张暴风雨的图片,模型可以生成暴风雨的声音。
    • 音乐生成(Music Generation):根据文本描述或视频内容生成音乐。例如,输入“轻松的钢琴曲”,模型可以生成一段轻松的钢琴音乐。
    • 音频修复(Audio Inpainting):根据上下文信息修复音频中的缺失部分。例如,输入一段有空白的音频,模型可以填补空白部分,使音频完整。
    • 音乐补全(Music Completion):根据给定的音乐片段生成后续部分。例如,输入一段音乐的开头,模型可以生成后续的音乐片段。
  • 高质量音频生成:AudioX 使用扩散模型(Diffusion Model)技术,能生成高质量、高保真的音频和音乐,确保生成的音频在音质和细节上接近真实音频。
  • 灵活的自然语言控制:用户可以通过自然语言描述来精确控制生成的音频内容。例如,用户可以指定音效的类型、音乐的风格、乐器的使用等,使生成的音频更符合需求。
  • 跨模态学习能力:AudioX 能处理多种模态的输入,将它们有效整合,生成与输入条件一致的音频。例如,同时输入文本和视频,模型可以综合考虑两者的语义信息,生成更贴合场景的音频。
  • 强大的泛化能力:在多个数据集和任务上表现出色,包括 AudioCaps、VGGSound、MusicCaps、V2M-bench 等,证明了其在不同场景下的泛化能力和适应性。
  • 零样本生成能力:没有针对特定模态(如图像)的专门训练,AudioX 能在零样本条件下生成高质量的音频,展示了强大的通用生成能力。

AudioX的技术原理

  • 扩散模型(Diffusion Model):AudioX 使用扩散模型的核心思想,将输入数据逐步添加噪声,然后通过一个逆向过程逐步去除噪声,最终生成高质量的音频或音乐。
    • 前向扩散过程:将输入数据逐步添加高斯噪声,生成一系列含噪的潜变量。
    • 反向去噪过程:通过训练一个去噪网络(通常是一个 Transformer),逐步去除噪声,重建干净的音频数据。
  • 多模态掩码训练策略:为了增强模型的跨模态学习能力,AudioX 采用了多模态掩码训练策略。在训练过程中,模型会随机掩码部分输入模态,迫使模型从不完整的输入中学习,提高模型的鲁棒性和泛化能力。
  • 多模态编码器和解码器:AudioX 集成了多种专用编码器,分别处理不同模态的输入数据,然后将这些编码后的特征融合到一个统一的潜空间中。
    • 视频编码器:使用 CLIP-ViT-B/32 提取视频帧的特征。
    • 文本编码器:使用 T5-base 提取文本的特征。
    • 音频编码器:使用自编码器提取音频的特征。
    • 特征融合:将不同模态的特征通过线性变换和连接操作融合到一个统一的多模态嵌入向量中。
  • 扩散过程中的条件嵌入:在扩散过程中,多模态嵌入向量作为条件输入,帮助模型生成与输入条件一致的音频或音乐。将融合后的多模态特征与扩散时间步一起输入到扩散模型中。通过逐步去除噪声,生成与输入条件匹配的高质量音频或音乐。
  • 数据集和训练:为了训练 AudioX,研究人员构建了两个大规模的多模态数据集:vggsound-caps,基于 VGGSound 数据集,包含 190K 音频字幕。V2M-caps,基于 V2M 数据集,包含 600 万音乐字幕。

AudioX的项目地址

  • 项目官网:https://zeyuet.github.io/AudioX/
  • Github仓库:https://github.com/ZeyueT/AudioX
  • arXiv技术论文:https://arxiv.org/pdf/2503.10522

AudioX的应用场景

  • 视频配乐:根据视频内容自动生成背景音乐或音效,提升视频的吸引力和情感共鸣。
  • 动画音效:为动画场景生成匹配的音效,如脚步声、风声、爆炸声等,增强动画的沉浸感。
  • 音乐生成:根据文本描述或风格要求生成音乐,为音乐创作者提供灵感或辅助创作。
  • 语言学习:生成与语言学习内容相关的音效或背景音乐,增强学习体验。
FinGPT – 开源金融领域大模型,可预测股票价格走势
HUGWBC – 上海交大联合上海 AI Lab 推出的人形机器人全身控制器
腾讯混元Turbo S – 腾讯推出的新一代快思考模型
Stable Audio Open Small – Stability AI和Arm推出的文本到音频生成模型
抖音生活服务消保战报:先行赔付2.4亿剑指AIGC违规,平台治理迈入新阶段
分享
Email 复制链接 打印
Share
上一篇 Kokoro-TTS – 轻量级文本转语音模型,支持多语言多语音风格生成
下一篇 H-Optimus-0 – 法国初创公司Bioptimus开源的病理学AI基础模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

LalaEval – 港中文联合货拉拉推出面向特定领域的模型评估框架
AIGC 资讯
H-Optimus-0 – 法国初创公司Bioptimus开源的病理学AI基础模型
AIGC 资讯
Kokoro-TTS – 轻量级文本转语音模型,支持多语言多语音风格生成
AIGC 资讯
GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
AIGC 资讯

相关推荐

AIGC 资讯

InternVL3 – 上海 AI Lab 开源的多模态大语言模型

站外新闻
AIGC 资讯

​AI 音乐创作新趋势:杭州男子月入十几万,40 秒生成一首歌

站外新闻
AI 工具AIGC 资讯

腾讯混元3D世界模型2.0全面开源:一键文图生3D场景,兼容UE/Unity引擎,性能对标商业产品

站外新闻
3D世界模型 3D高斯溅射 AIGC 开源大模型 腾讯混元
AIGC 资讯

Omnitool – 开源 AI 桌面,支持多种主流AI平台和服务

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.