Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Stable Audio 3开源:本地秒级生成6分钟音频,重塑AI音乐创作格局
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > Stable Audio 3开源:本地秒级生成6分钟音频,重塑AI音乐创作格局
AI 工具AIGC 资讯

Stable Audio 3开源:本地秒级生成6分钟音频,重塑AI音乐创作格局

站外新闻
最近更新: 2026年5月22日 下午2:23
AIGC Stability AI Stable Audio 3 开源模型 音频生成模型
SHARE

💡 站外导读:当AI音频创作还在为生成时长受限、依赖云端算力、无法精细编辑而烦恼时,Stability AI带来了开源领域的重磅突破——Stable Audio 3。这款模型系列不仅将高质量音频生成时长从47秒一举推至6分钟以上,更首次实现了在MacBook Pro等消费级设备上的完全离线运行,解决了创作者对数据隐私和即时可用的核心痛点。它的出现,标志着AI音频工具从“玩具级”演示正式迈入“专业级”生产工作流。

Stable Audio 3是什么

Stable Audio 3是Stability AI推出的新一代开源音频生成模型系列,基于流匹配潜空间扩散架构,支持文本转音乐与音效、音频编辑及续写。Stable Audio 3提供Small、Medium、Large多规格模型,Small版本可在MacBook Pro本地运行并生成最长2分钟音频,Medium与Large支持超过6分钟的高质量生成。全系模型采用完全授权数据训练,开放Small与Medium权重,支持LoRA微调,实现不到2秒的快速推理。

阅读目录
  • Stable Audio 3是什么
  • Stable Audio 3的主要功能
  • Stable Audio 3的技术原理
  • 如何使用Stable Audio 3
  • Stable Audio 3的核心优势
  • Stable Audio 3的项目地址
  • Stable Audio 3的同类竞品对比
  • Stable Audio 3的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Stable Audio 3

Stable Audio 3的主要功能

  • 文本转音频生成:用户输入英文文本提示词可生成器乐音乐或环境音效,精确控制输出时长至秒级。
  • 可变长度音频合成:模型按请求时长比例分配潜空间序列长度,避免固定最大长度导致的计算与内存浪费。
  • 音频局部编辑修复:通过单段或多段掩码实现音频的局部重绘(inpainting),在保留原始片段的同时替换目标区域。
  • 音频智能续写扩展:用因果掩码机制对现有音频进行连贯延续,将短录音扩展为超过6分钟的完整作品。
  • LoRA风格微调:首次开放LoRA训练文档与Small、Medium权重,支持用户使用自有音频库进行高效的自定义风格适配。
  • 全链路本地部署:3.0 Small支持在MacBook Pro等消费级设备上完全离线运行,实现无需网络的隐私化创作。

Stable Audio 3的技术原理

  • 语义-声学自编码器:基于SAME架构通过4096倍下采样将44.1kHz立体声映射至256维潜空间,兼顾高保真重建与语义结构编码。
  • 流匹配潜空间扩散:采用流匹配训练范式在紧凑潜空间中执行扩散生成,配合小批量最优传输耦合提升训练稳定性与效率。
  • 对抗后训练加速:在预训练与ODE蒸馏预热后引入对抗后训练,将推理步数压缩至极低水平,实现H200上不到2秒生成长音频。
  • 差分注意力Transformer:扩散Transformer集成差分注意力、自适应层归一化条件注入与记忆嵌入,增强长序列音频的建模精度。
  • 可变长度推理机制:突破传统扩散模型固定序列长度限制,使潜空间长度与实际请求时长成正比,显著降低短音频生成成本。

如何使用Stable Audio 3

  • 获取模型权重:访问Hugging Face的Stability-AI/stable-audio-3仓库,下载3.0 Small、Small SFX或Medium的权重文件。
  • 配置运行环境:克隆stable-audio-tools代码仓库并安装依赖,确保PyTorch与CUDA或Apple Metal后端已正确配置。
  • 加载模型与编码器:在脚本中实例化SAME自编码器与对应规模的扩散Transformer,加载预训练权重至显存。
  • 编写生成提示:输入描述目标音频风格、乐器与情绪的英文提示词,并设置精确的输出时长(秒数)。
  • 执行推理生成:调用模型生成接口,模型将根据时长参数执行可变长度推理并输出44.1kHz立体声WAV文件。

Stable Audio 3的核心优势

  • 完全授权商用友好:全系模型基于 licensed 与 Creative Commons 数据训练,Community License允许用户自由拥有并商用生成内容。
  • 消费级硬件原生支持:3.0 Small开放权重且可在MacBook Pro M4上离线运行,是首款支持本地全曲作曲的轻量级模型。
  • 超长高质量生成:Medium与Large模型支持超过6分钟的高质量音频生成,较前代Stable Audio Open的47秒上限实现数量级突破。
  • 极致推理效率:经对抗后训练优化,Large模型在H200 GPU上生成6分20秒音频耗时不到2秒,MacBook Pro上仅需数秒。
  • 零标注灵活编辑:无需额外训练数据标注即可通过随机与因果掩码实现单段、多段编辑及续写,直接融入真实创作工作流。

Stable Audio 3的项目地址

  • 项目官网:https://stability.ai/news-updates/meet-stable-audio-3-the-model-family-built-for-artistic-experimentation-with-open-weight-models
  • GitHub仓库:https://github.com/Stability-AI/stable-audio-3
  • HuggingFace模型库:https://huggingface.co/collections/stabilityai/stable-audio-3
  • arXiv技术论文:https://arxiv.org/pdf/2605.17991

Stable Audio 3的同类竞品对比

对比维度 Stable Audio 3 Stable Audio Open MusicGen
开发团队 Stability AI Stability AI Meta (FAIR)
模型架构 流匹配潜空间扩散 潜空间扩散 自回归 + EnCodec
最大生成时长 6分20秒 47秒 约2分钟
可变长度支持 原生秒级控制 不支持(固定长度) 有限支持
消费级本地运行 Small可在MacBook运行 需独立GPU 需独立GPU
开放权重范围 Small / Medium / Small SFX Small Small / Medium / Large
音频编辑能力 单段/多段/续写 不支持 不支持
推理速度 <2秒(H200,6分20秒) 较慢 中等

Stable Audio 3的应用场景

  • 游戏与影视音效:快速生成交互音效、环境氛围音与背景音乐,通过局部编辑精确匹配画面节奏与情感需求。
  • 短视频与广告配乐:按精确时长生成定制化器乐片段,避免手动裁剪,直接适配短视频、宣传片与播客转场。
  • 音乐创作辅助:帮助音乐人生成动机灵感、扩展未完成草稿或替换歌曲局部段落,显著加速编曲迭代周期。
  • 本地隐私敏感创作:3.0 Small支持完全离线运行,满足影视工作室、独立音乐人对数据隐私与网络隔离的严格要求。
  • 个性化品牌声音:通过LoRA微调企业自有音频资产,打造一致的UI音效、品牌提示音与专属音乐风格。

📝 站长洞察 (Editor’s Insight)

Stable Audio 3的发布,绝不仅仅是模型参数的升级,而是Stability AI在开源AI音频生态中落下的关键一子。它精准地击中了当前AIGC音频领域的三大核心瓶颈:时长限制、云端依赖与编辑僵化。通过流匹配潜空间扩散与对抗后训练等前沿技术,它在效率与质量间取得了惊人的平衡。更值得关注的是其“开源开放”与“本地优先”的策略,这直接降低了专业音频创作的门槛,将激发海量独立开发者和音乐人的创新。从LoRA微调到消费级硬件支持,Stability AI正在构建一个从生成到部署、从通用到个性化的完整闭环。结合此前其在图像和3D领域的开源动作,这清晰地表明,顶级的AI基础模型公司正试图通过开放生态,来定义下一代内容创作工具链的行业标准。对于创作者而言,这意味着一个更自由、更可控、更强大的AI音频创作时代正在到来。

CodeGeeX
昆仑万维Matrix-Game 3.0发布:720p@40FPS实时交互世界模型,开启AI游戏新纪元
Eternal AI
MagicForm
09-19 AIGC 早报
TAGGED:AIGCStability AIStable Audio 3开源模型音频生成模型
分享
Email 复制链接 打印
Share
上一篇 乐鑫 ESP-Claw 开源:用自然语言对话定义物联网设备行为的 AI Agent 框架
下一篇 Karpathy 开源 autoresearch:单 GPU 实现 AI 自主科研,自动跑实验、调参、迭代,打造你的专属 AI 科学家
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

小红书开源FireRedASR2S语音识别模型:2.89%超低字错率,支持20+方言与端到端部署
AI 工具 AIGC 资讯
ZeroClaw:Rust编写的8.8MB极简AI Agent框架,开源免费、零厂商锁定,从树莓派到企业集群一键部署
AI 工具 AIGC 资讯
马斯克 xAI 发布 Grok 4.20:四智能体协作架构如何碾压 OpenAI?实盘交易唯一盈利 AI
AI 工具 AIGC 资讯
OpenAkita:全球首个支持自我进化的开源AI助手框架,8种人格、9+大模型热切换,释放Agent无限潜能
AI 工具

相关推荐

AI 工具AIGC 资讯

小红书FireRed-OCR重磅开源:2B参数模型击败GPT-5.2,重塑文档结构解析新范式

站外新闻
OCR 小红书 文档解析 视觉语言模型
AIGC 资讯

OpenDeepResearcher – 开源 AI 研究工具,自动完成搜索、评估、提取和报告生成

站外新闻
AIGC 资讯

Qwen2.5-1M – 阿里通义千问开源的语言模型,支持100万Tokens上下文

站外新闻
AI 工具AIGC 资讯

DeepSeek-TUI 重磅发布:基于 Rust 的开源终端智能体,深度适配 DeepSeek V4 百万上下文模型

站外新闻
AIGC开发 DeepSeek V4 DeepSeek-TUI 开源编程工具 终端智能体
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE架构 NVIDIA openai OpenClaw OpenRouter Pika prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 小红书 展台 建筑 开源 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 清华大学 生成式AI 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.