Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Stable Audio 3开源:本地秒级生成6分钟音频,重塑AI音乐创作格局
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > Stable Audio 3开源:本地秒级生成6分钟音频,重塑AI音乐创作格局
AI 工具AIGC 资讯

Stable Audio 3开源:本地秒级生成6分钟音频,重塑AI音乐创作格局

站外新闻
最近更新: 2026年5月22日 下午2:23
AIGC Stability AI Stable Audio 3 开源模型 音频生成模型
SHARE

💡 站外导读:当AI音频创作还在为生成时长受限、依赖云端算力、无法精细编辑而烦恼时,Stability AI带来了开源领域的重磅突破——Stable Audio 3。这款模型系列不仅将高质量音频生成时长从47秒一举推至6分钟以上,更首次实现了在MacBook Pro等消费级设备上的完全离线运行,解决了创作者对数据隐私和即时可用的核心痛点。它的出现,标志着AI音频工具从“玩具级”演示正式迈入“专业级”生产工作流。

Stable Audio 3是什么

Stable Audio 3是Stability AI推出的新一代开源音频生成模型系列,基于流匹配潜空间扩散架构,支持文本转音乐与音效、音频编辑及续写。Stable Audio 3提供Small、Medium、Large多规格模型,Small版本可在MacBook Pro本地运行并生成最长2分钟音频,Medium与Large支持超过6分钟的高质量生成。全系模型采用完全授权数据训练,开放Small与Medium权重,支持LoRA微调,实现不到2秒的快速推理。

阅读目录
  • Stable Audio 3是什么
  • Stable Audio 3的主要功能
  • Stable Audio 3的技术原理
  • 如何使用Stable Audio 3
  • Stable Audio 3的核心优势
  • Stable Audio 3的项目地址
  • Stable Audio 3的同类竞品对比
  • Stable Audio 3的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Stable Audio 3

Stable Audio 3的主要功能

  • 文本转音频生成:用户输入英文文本提示词可生成器乐音乐或环境音效,精确控制输出时长至秒级。
  • 可变长度音频合成:模型按请求时长比例分配潜空间序列长度,避免固定最大长度导致的计算与内存浪费。
  • 音频局部编辑修复:通过单段或多段掩码实现音频的局部重绘(inpainting),在保留原始片段的同时替换目标区域。
  • 音频智能续写扩展:用因果掩码机制对现有音频进行连贯延续,将短录音扩展为超过6分钟的完整作品。
  • LoRA风格微调:首次开放LoRA训练文档与Small、Medium权重,支持用户使用自有音频库进行高效的自定义风格适配。
  • 全链路本地部署:3.0 Small支持在MacBook Pro等消费级设备上完全离线运行,实现无需网络的隐私化创作。

Stable Audio 3的技术原理

  • 语义-声学自编码器:基于SAME架构通过4096倍下采样将44.1kHz立体声映射至256维潜空间,兼顾高保真重建与语义结构编码。
  • 流匹配潜空间扩散:采用流匹配训练范式在紧凑潜空间中执行扩散生成,配合小批量最优传输耦合提升训练稳定性与效率。
  • 对抗后训练加速:在预训练与ODE蒸馏预热后引入对抗后训练,将推理步数压缩至极低水平,实现H200上不到2秒生成长音频。
  • 差分注意力Transformer:扩散Transformer集成差分注意力、自适应层归一化条件注入与记忆嵌入,增强长序列音频的建模精度。
  • 可变长度推理机制:突破传统扩散模型固定序列长度限制,使潜空间长度与实际请求时长成正比,显著降低短音频生成成本。

如何使用Stable Audio 3

  • 获取模型权重:访问Hugging Face的Stability-AI/stable-audio-3仓库,下载3.0 Small、Small SFX或Medium的权重文件。
  • 配置运行环境:克隆stable-audio-tools代码仓库并安装依赖,确保PyTorch与CUDA或Apple Metal后端已正确配置。
  • 加载模型与编码器:在脚本中实例化SAME自编码器与对应规模的扩散Transformer,加载预训练权重至显存。
  • 编写生成提示:输入描述目标音频风格、乐器与情绪的英文提示词,并设置精确的输出时长(秒数)。
  • 执行推理生成:调用模型生成接口,模型将根据时长参数执行可变长度推理并输出44.1kHz立体声WAV文件。

Stable Audio 3的核心优势

  • 完全授权商用友好:全系模型基于 licensed 与 Creative Commons 数据训练,Community License允许用户自由拥有并商用生成内容。
  • 消费级硬件原生支持:3.0 Small开放权重且可在MacBook Pro M4上离线运行,是首款支持本地全曲作曲的轻量级模型。
  • 超长高质量生成:Medium与Large模型支持超过6分钟的高质量音频生成,较前代Stable Audio Open的47秒上限实现数量级突破。
  • 极致推理效率:经对抗后训练优化,Large模型在H200 GPU上生成6分20秒音频耗时不到2秒,MacBook Pro上仅需数秒。
  • 零标注灵活编辑:无需额外训练数据标注即可通过随机与因果掩码实现单段、多段编辑及续写,直接融入真实创作工作流。

Stable Audio 3的项目地址

  • 项目官网:https://stability.ai/news-updates/meet-stable-audio-3-the-model-family-built-for-artistic-experimentation-with-open-weight-models
  • GitHub仓库:https://github.com/Stability-AI/stable-audio-3
  • HuggingFace模型库:https://huggingface.co/collections/stabilityai/stable-audio-3
  • arXiv技术论文:https://arxiv.org/pdf/2605.17991

Stable Audio 3的同类竞品对比

对比维度 Stable Audio 3 Stable Audio Open MusicGen
开发团队 Stability AI Stability AI Meta (FAIR)
模型架构 流匹配潜空间扩散 潜空间扩散 自回归 + EnCodec
最大生成时长 6分20秒 47秒 约2分钟
可变长度支持 原生秒级控制 不支持(固定长度) 有限支持
消费级本地运行 Small可在MacBook运行 需独立GPU 需独立GPU
开放权重范围 Small / Medium / Small SFX Small Small / Medium / Large
音频编辑能力 单段/多段/续写 不支持 不支持
推理速度 <2秒(H200,6分20秒) 较慢 中等

Stable Audio 3的应用场景

  • 游戏与影视音效:快速生成交互音效、环境氛围音与背景音乐,通过局部编辑精确匹配画面节奏与情感需求。
  • 短视频与广告配乐:按精确时长生成定制化器乐片段,避免手动裁剪,直接适配短视频、宣传片与播客转场。
  • 音乐创作辅助:帮助音乐人生成动机灵感、扩展未完成草稿或替换歌曲局部段落,显著加速编曲迭代周期。
  • 本地隐私敏感创作:3.0 Small支持完全离线运行,满足影视工作室、独立音乐人对数据隐私与网络隔离的严格要求。
  • 个性化品牌声音:通过LoRA微调企业自有音频资产,打造一致的UI音效、品牌提示音与专属音乐风格。

📝 站长洞察 (Editor’s Insight)

Stable Audio 3的发布,绝不仅仅是模型参数的升级,而是Stability AI在开源AI音频生态中落下的关键一子。它精准地击中了当前AIGC音频领域的三大核心瓶颈:时长限制、云端依赖与编辑僵化。通过流匹配潜空间扩散与对抗后训练等前沿技术,它在效率与质量间取得了惊人的平衡。更值得关注的是其“开源开放”与“本地优先”的策略,这直接降低了专业音频创作的门槛,将激发海量独立开发者和音乐人的创新。从LoRA微调到消费级硬件支持,Stability AI正在构建一个从生成到部署、从通用到个性化的完整闭环。结合此前其在图像和3D领域的开源动作,这清晰地表明,顶级的AI基础模型公司正试图通过开放生态,来定义下一代内容创作工具链的行业标准。对于创作者而言,这意味着一个更自由、更可控、更强大的AI音频创作时代正在到来。

VenturusAI
Manifest AI
Deciphr AI
Option Alpha
eCommerce Prompt Generator
TAGGED:AIGCStability AIStable Audio 3开源模型音频生成模型
分享
Email 复制链接 打印
Share
上一篇 乐鑫 ESP-Claw 开源:用自然语言对话定义物联网设备行为的 AI Agent 框架
下一篇 Karpathy 开源 autoresearch:单 GPU 实现 AI 自主科研,自动跑实验、调参、迭代,打造你的专属 AI 科学家
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

开源神器ReadFrog(陪读蛙):AI沉浸式翻译+划词学习,免费支持20+模型,效率提升70%
AI 工具
网易有道Confucius4开源发布:27B参数多模态数学推理模型,多项基准SOTA,推理链长度降43% | 免费商用
AI 工具 AIGC 资讯
GLM-5.1-HighSpeed 震撼发布:400 tokens/s 极速引擎,智谱AI如何重新定义大模型速度天花板?
AI 工具 AIGC 资讯
美团开源LongCat-Video-Avatar 1.5:13.6B参数模型如何用单音频秒生成级数字人视频?
AI 工具 AIGC 资讯

相关推荐

AI 工具

NameSnack

remaker

SDXL 1.0 免费开源重磅发布,AI 作图迎来全新时代!SDXL1.0 信息汇总(本地部署+在线使用)

OZ
SDXL1.0 Stability AI WebUI 资源
AI 工具

Chromatic Lens

remaker
AI 工具

REimagine Home

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

3D AI AI Agent AIGC AI人像 AI工具 AI换脸 AI海报设计 AI生成视频 AI绘画 AI视频 AI设计 app图标 chatgpt DALL-E3 excel GPT meta Midjourney openai Pika prompt runway SDXL Stability AI stable diffusion UI设计 专业 丛林 乐高 人像 人物 动物 吉卜力 咒语 图像生成 图标设计 圣诞 壁纸 多模态大模型 大模型 女性 奶牛 实验室 宠物 客厅 室内设计 家居 局部重绘 展台 帅哥 建筑 建筑设计 开源模型 微摄影 怪物 提示词 摄影 教程 新闻 日本排放核污水 早报 智能体 智谱AI 枯木 植物 模特 水果 泳池 海报 海报设计 温馨的家 游戏 游戏美术 玻璃 白茶花 矢量插画 破碎 科幻 穿搭 窗 美食 背景 节日 芭比 花 花卉 茶园一角 草原 荷兰奶源 表情包 视频编辑 赛博朋克 超现实主义 软件 运动 金毛 风景 食物 香水
Prompt 语宙Prompt 语宙
Follow US
© 2009-2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Welcome Back!

Sign in to your account

Username or Email Address
Password

忘记密码