Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Stable Audio 3开源:本地秒级生成6分钟音频,重塑AI音乐创作格局
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > Stable Audio 3开源:本地秒级生成6分钟音频,重塑AI音乐创作格局
AI 工具AIGC 资讯

Stable Audio 3开源:本地秒级生成6分钟音频,重塑AI音乐创作格局

站外新闻
最近更新: 2026年5月22日 下午2:23
AIGC Stability AI Stable Audio 3 开源模型 音频生成模型
SHARE

💡 站外导读:当AI音频创作还在为生成时长受限、依赖云端算力、无法精细编辑而烦恼时,Stability AI带来了开源领域的重磅突破——Stable Audio 3。这款模型系列不仅将高质量音频生成时长从47秒一举推至6分钟以上,更首次实现了在MacBook Pro等消费级设备上的完全离线运行,解决了创作者对数据隐私和即时可用的核心痛点。它的出现,标志着AI音频工具从“玩具级”演示正式迈入“专业级”生产工作流。

Stable Audio 3是什么

Stable Audio 3是Stability AI推出的新一代开源音频生成模型系列,基于流匹配潜空间扩散架构,支持文本转音乐与音效、音频编辑及续写。Stable Audio 3提供Small、Medium、Large多规格模型,Small版本可在MacBook Pro本地运行并生成最长2分钟音频,Medium与Large支持超过6分钟的高质量生成。全系模型采用完全授权数据训练,开放Small与Medium权重,支持LoRA微调,实现不到2秒的快速推理。

阅读目录
  • Stable Audio 3是什么
  • Stable Audio 3的主要功能
  • Stable Audio 3的技术原理
  • 如何使用Stable Audio 3
  • Stable Audio 3的核心优势
  • Stable Audio 3的项目地址
  • Stable Audio 3的同类竞品对比
  • Stable Audio 3的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Stable Audio 3

Stable Audio 3的主要功能

  • 文本转音频生成:用户输入英文文本提示词可生成器乐音乐或环境音效,精确控制输出时长至秒级。
  • 可变长度音频合成:模型按请求时长比例分配潜空间序列长度,避免固定最大长度导致的计算与内存浪费。
  • 音频局部编辑修复:通过单段或多段掩码实现音频的局部重绘(inpainting),在保留原始片段的同时替换目标区域。
  • 音频智能续写扩展:用因果掩码机制对现有音频进行连贯延续,将短录音扩展为超过6分钟的完整作品。
  • LoRA风格微调:首次开放LoRA训练文档与Small、Medium权重,支持用户使用自有音频库进行高效的自定义风格适配。
  • 全链路本地部署:3.0 Small支持在MacBook Pro等消费级设备上完全离线运行,实现无需网络的隐私化创作。

Stable Audio 3的技术原理

  • 语义-声学自编码器:基于SAME架构通过4096倍下采样将44.1kHz立体声映射至256维潜空间,兼顾高保真重建与语义结构编码。
  • 流匹配潜空间扩散:采用流匹配训练范式在紧凑潜空间中执行扩散生成,配合小批量最优传输耦合提升训练稳定性与效率。
  • 对抗后训练加速:在预训练与ODE蒸馏预热后引入对抗后训练,将推理步数压缩至极低水平,实现H200上不到2秒生成长音频。
  • 差分注意力Transformer:扩散Transformer集成差分注意力、自适应层归一化条件注入与记忆嵌入,增强长序列音频的建模精度。
  • 可变长度推理机制:突破传统扩散模型固定序列长度限制,使潜空间长度与实际请求时长成正比,显著降低短音频生成成本。

如何使用Stable Audio 3

  • 获取模型权重:访问Hugging Face的Stability-AI/stable-audio-3仓库,下载3.0 Small、Small SFX或Medium的权重文件。
  • 配置运行环境:克隆stable-audio-tools代码仓库并安装依赖,确保PyTorch与CUDA或Apple Metal后端已正确配置。
  • 加载模型与编码器:在脚本中实例化SAME自编码器与对应规模的扩散Transformer,加载预训练权重至显存。
  • 编写生成提示:输入描述目标音频风格、乐器与情绪的英文提示词,并设置精确的输出时长(秒数)。
  • 执行推理生成:调用模型生成接口,模型将根据时长参数执行可变长度推理并输出44.1kHz立体声WAV文件。

Stable Audio 3的核心优势

  • 完全授权商用友好:全系模型基于 licensed 与 Creative Commons 数据训练,Community License允许用户自由拥有并商用生成内容。
  • 消费级硬件原生支持:3.0 Small开放权重且可在MacBook Pro M4上离线运行,是首款支持本地全曲作曲的轻量级模型。
  • 超长高质量生成:Medium与Large模型支持超过6分钟的高质量音频生成,较前代Stable Audio Open的47秒上限实现数量级突破。
  • 极致推理效率:经对抗后训练优化,Large模型在H200 GPU上生成6分20秒音频耗时不到2秒,MacBook Pro上仅需数秒。
  • 零标注灵活编辑:无需额外训练数据标注即可通过随机与因果掩码实现单段、多段编辑及续写,直接融入真实创作工作流。

Stable Audio 3的项目地址

  • 项目官网:https://stability.ai/news-updates/meet-stable-audio-3-the-model-family-built-for-artistic-experimentation-with-open-weight-models
  • GitHub仓库:https://github.com/Stability-AI/stable-audio-3
  • HuggingFace模型库:https://huggingface.co/collections/stabilityai/stable-audio-3
  • arXiv技术论文:https://arxiv.org/pdf/2605.17991

Stable Audio 3的同类竞品对比

对比维度 Stable Audio 3 Stable Audio Open MusicGen
开发团队 Stability AI Stability AI Meta (FAIR)
模型架构 流匹配潜空间扩散 潜空间扩散 自回归 + EnCodec
最大生成时长 6分20秒 47秒 约2分钟
可变长度支持 原生秒级控制 不支持(固定长度) 有限支持
消费级本地运行 Small可在MacBook运行 需独立GPU 需独立GPU
开放权重范围 Small / Medium / Small SFX Small Small / Medium / Large
音频编辑能力 单段/多段/续写 不支持 不支持
推理速度 <2秒(H200,6分20秒) 较慢 中等

Stable Audio 3的应用场景

  • 游戏与影视音效:快速生成交互音效、环境氛围音与背景音乐,通过局部编辑精确匹配画面节奏与情感需求。
  • 短视频与广告配乐:按精确时长生成定制化器乐片段,避免手动裁剪,直接适配短视频、宣传片与播客转场。
  • 音乐创作辅助:帮助音乐人生成动机灵感、扩展未完成草稿或替换歌曲局部段落,显著加速编曲迭代周期。
  • 本地隐私敏感创作:3.0 Small支持完全离线运行,满足影视工作室、独立音乐人对数据隐私与网络隔离的严格要求。
  • 个性化品牌声音:通过LoRA微调企业自有音频资产,打造一致的UI音效、品牌提示音与专属音乐风格。

📝 站长洞察 (Editor’s Insight)

Stable Audio 3的发布,绝不仅仅是模型参数的升级,而是Stability AI在开源AI音频生态中落下的关键一子。它精准地击中了当前AIGC音频领域的三大核心瓶颈:时长限制、云端依赖与编辑僵化。通过流匹配潜空间扩散与对抗后训练等前沿技术,它在效率与质量间取得了惊人的平衡。更值得关注的是其“开源开放”与“本地优先”的策略,这直接降低了专业音频创作的门槛,将激发海量独立开发者和音乐人的创新。从LoRA微调到消费级硬件支持,Stability AI正在构建一个从生成到部署、从通用到个性化的完整闭环。结合此前其在图像和3D领域的开源动作,这清晰地表明,顶级的AI基础模型公司正试图通过开放生态,来定义下一代内容创作工具链的行业标准。对于创作者而言,这意味着一个更自由、更可控、更强大的AI音频创作时代正在到来。

字节跳动DreamActor-H1:DiT框架革新电商视频生成,3D动作引导+身份保留引领AIGC商业化
CodeAssist
Uni-AdaFocus – 清华大学推出通用的高效视频理解框架
YC CEO 开源 gstack:将 Claude Code 打造成 10-15 人虚拟工程团队的 AI 编程工作流神器
阿里AntV开源Infographic框架:AI驱动、197种模板,一键生成高质量信息图
TAGGED:AIGCStability AIStable Audio 3开源模型音频生成模型
分享
Email 复制链接 打印
Share
上一篇 乐鑫 ESP-Claw 开源:用自然语言对话定义物联网设备行为的 AI Agent 框架
下一篇 Karpathy 开源 autoresearch:单 GPU 实现 AI 自主科研,自动跑实验、调参、迭代,打造你的专属 AI 科学家
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

流光脑波AI大脑占位特色图
2026年3月美国AI榜单巨变:Claude单月狂飙130%紧追ChatGPT,格局突变信号已现
AIGC 资讯 最新趋势
得物实战揭秘:AI Coding工具如何突破数仓开发’失忆’痛点,Harness工程引领新范式
AI 工具 AIGC 资讯
全息流体渐变通用占位特色图
历史性和解!Meta妥协规避审判,美国首例学校诉社交媒体成瘾案落幕,揭示行业司法风向
AIGC 资讯
量子芯片科技感占位特色图
Spotify与环球音乐联手:AI翻唱混音工具上线,正版版权终结Suno野蛮生长
AI 工具 AIGC 资讯 最新趋势

相关推荐

AIGC 资讯

Step-Audio – 阶跃星辰开源的语音交互模型

站外新闻
AIGC 资讯

混元3D v2.5 – 腾讯推出的最新版 3D 生成模型

站外新闻
AIGC 资讯

Step1X-Edit – 阶跃星辰开源的通用图像编辑框架

站外新闻
AI 工具

MiniMax-Remover:两阶段AI视频移除黑科技,6步搞定高效去物体

站外新闻
AIGC AI视频 MiniMax-Remover 目标移除 视频编辑
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 轻量级模型 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.