Stable Audio Open Small – Stability AI和Arm推出的文本到音频生成模型

最近更新: 2026年6月7日下午8:02

Stable Audio Open Small是什么

Stable Audio Open Small 是 Stability AI 与 Arm 合作推出的轻量级文本到音频生成模型。基于 Stable Audio Open 模型，参数量从11亿减少到3.41亿，生成速度更快，能在移动设备上快速生成音频，如鼓点循环、音效等。模型基于 Arm 的 KleidiAI 技术，优化在边缘设备上的运行效率，降低计算成本，无需复杂硬件支持。模型适用实时音频生成场景，如智能手机和边缘设备。

阅读目录

Stable Audio Open Small是什么
Stable Audio Open Small的主要功能
Stable Audio Open Small的技术原理
Stable Audio Open Small的项目地址
Stable Audio Open Small的应用场景

Stable Audio Open Small

Stable Audio Open Small的主要功能

文本到音频生成：根据用户输入的文本提示生成相应的音频内容，例如生成特定乐器的声音、环境音效或简单的音乐片段。
快速音频生成：支持在移动设备在8秒内生成音频，适合实时应用。
轻量化设计：参数量从11亿减少到3.41亿，模型更轻量，适合在资源受限的设备上运行。
高效运行：模型能在边缘设备上运行效率更高，降低计算成本。
多样化音频生成：支持生成短音频样本、音效、乐器片段和环境纹理等，适合创意音频制作和实时音频应用。

Stable Audio Open Small的技术原理

基于深度学习的生成模型：基于深度学习架构，用大量的音频数据训练模型，理解文本描述生成相应的音频。基于先进的神经网络技术，如 Transformer 架构，对文本和音频进行编码和解码。
参数优化：基于减少模型参数量（从11亿到3.41亿），降低模型的复杂度和计算需求，保持较高的输出质量。用模型压缩技术，如量化和剪枝，进一步优化模型的运行效率。
边缘计算优化：基于 Arm 的 KleidiAI 库，针对 Arm CPU 进行优化，让模型能在移动设备和边缘设备上高效运行。基于优化算法和硬件加速，减少音频生成的时间和计算成本。
高效的推理引擎：优化模型的推理过程，让模型在移动设备上快速完成音频生成任务，适合实时应用。基于改进的推理算法和硬件适配，提高模型的响应速度和用户体验。