知名人工智能公司 Stability AI 近日正式发布了其最新一代音频大模型Stable Audio3,并同步开源了部分模型权重。作为一款专为音频生成与编辑设计的潜扩散模型,该系统不仅支持高品质的双声道立体声输出,更在生成速度上实现了质的飞跃。

此次推出的模型家族规格多样,从小到大一应俱全,能有效应对音乐创作、音效设计等多种应用场景。特别值得关注的是,它支持生成不同时长的音频,并且首次融入了基于内补成像的音频编辑能力,赋予了创作者极大的操作自由度。

image.png

创新架构打破硬件限制

Stable Audio3在架构上由两大核心组件构成:一个被称为 SAME 的语义声学自编码器,以及一个高效的扩散变换器。其中,SAME 自编码器实现了高达4096倍的音频压缩率,这一突破性设计大幅缩短了潜在序列的长度。

得益于出色的压缩效率,该模型即便在常见的家用设备上,也能顺畅完成长时间、大规模的音频生成工作。这大幅降低了制作高品质音频的技术壁垒,让普通用户在家中也能实现专业级别的音视频创作。

image.png

超高效率实现即时渲染

在 variable-length 技术的加持下,新模型的计算成本能够随着用户要求的音频时长动态缩放,彻底告别了以往固定长度带来的算力浪费。在高性能硬件的测试中,该模型仅需约0.62秒便可渲染出一段20秒的音频,而生成长达380秒的音乐也仅需1.31秒。

另外,借助创新的三阶段训练方案,Stable Audio 3在推理时无需再依赖传统的无分类器引导技术,从而达成了单步前向计算的高效运行。目前,面向公众开放的小型和中型模型权重已登陆Hugging Face平台,而性能更为强大的大型版本则将以商业授权的方式提供。