Meta开源SAM Audio：音频分割革命性突破，多模态提示精准分离任意声音

💡 站外导读：在播客录制、视频制作或音乐创作中，你是否苦于无法从嘈杂背景中分离出清晰的人声或特定乐器？传统音频处理工具往往需要复杂的参数调整，且效果有限。随着AIGC与多模态技术的爆发式发展，音频AI正迎来从“听清”到“听懂”的范式跃迁。Meta开源的SAM Audio正是这一趋势下的标志性产物，它将视觉、文本等多模态信息引入音频分割，标志着音频处理进入智能提示、精准分离的新时代。

SAM Audio是什么

SAM Audio是Meta开源的音频分割模型，能通过文本、视觉和时间片段等多模态提示，从复杂的音频混合中分离出特定的声音。核心技术是Perception Encoder Audiovisual（PE-AV），基于Meta开源的Perception Encoder模型，能融合视听信息并进行精确的时间标注，实现高精度的音频分离。用户可以通过简单的文本描述（如“吉他声”）、在视频中点击发声物体，或者标记声音出现的时间范围来使用SAM Audio。

阅读目录

SAM Audio是什么
SAM Audio的主要功能
SAM Audio的技术原理
SAM Audio的项目地址
SAM Audio的应用场景

📝 站长洞察 (Editor’s Insight)

SAM Audio

SAM Audio的主要功能

多模态提示音频分离：通过文本描述、视觉选择（视频中的对象）或时间片段标记，从复杂音频混合中分离出特定声音。
支持多种音频任务：能处理语音、音乐、通用音效等多种音频分离任务，适用于不同场景。
无参考音频评测：提供SAM Audio Judge，一种无需参考音频的客观评测模型，从感知层面评估音频分离质量。
真实环境基准测试：发布SAM Audio-Bench，首个真实环境的音频分离基准，覆盖多种音频领域和提示类型，支持无参考评估。
高效实时处理：运行速度快于实时处理，实时因子约为0.7，适合大规模音频处理。
助力无障碍技术：与相关机构合作，探索在无障碍技术中的应用，如助听器集成等，推动音频AI的包容性发展。

SAM Audio的技术原理

感知编码器视听模块（PE-AV）：基于Meta开源的Perception Encoder模型，PE-AV能提取逐帧视频特征并与音频表示对齐，融合视听信息，为音频分离提供精确的时间标注和语义丰富的特征表示。
流匹配扩散Transformer架构：采用生成式建模框架，将混合音频和提示信息编码为共享表示，生成目标音轨与剩余音轨，支持多种模态的提示输入。
大规模多模态数据训练：通过融合真实与合成的混合音频数据进行训练，涵盖语音、音乐和通用音效等多种声音事件，结合先进的音频合成策略，提升模型的鲁棒性和泛化能力。
无参考音频评测模型：SAM Audio Judge基于感知维度进行音频质量评估，无需参考音轨，提供更贴近人类听觉体验的客观评测标准。
真实环境基准测试：SAM Audio-Bench作为首个真实环境的音频分离基准，覆盖多种音频任务和模态提示，支持无参考评估，确保模型在实际应用中的有效性。

SAM Audio的项目地址

项目官网：https://ai.meta.com/samaudio/
Github仓库：https://github.com/facebookresearch/sam-audio

SAM Audio的应用场景

音频清理与背景噪声移除：从音频文件中去除不需要的背景噪音，例如在播客录音中去除狗叫声或交通噪声，提升音频质量。
创意媒体制作：帮助创作者从歌曲中提取特定乐器声音、分离人声或进行音频重新混音，增强创意表达。
无障碍技术：与助听器制造商合作，探索在听力辅助设备中的应用，帮助听力受损人群更好地理解音频内容。
视频编辑：在视频制作中，通过视觉提示分离特定对象的声音，例如点击视频中的吉他手来提取吉他声，提升视频编辑的灵活性。
音频分析与研究：为音频分析提供工具，帮助研究人员分离和研究特定的声音事件，适用于音乐分析、声音生态学等领域。

📝 站长洞察 (Editor’s Insight)

SAM Audio的发布不仅是技术开源，更是Meta在“感知AI”生态布局的关键落子。它将音频处理从单模态推向视听融合，这与当下大模型的多模态演进路径高度一致——未来AI的核心能力在于跨模态理解与交互。其引入的“无参考评测”标准，直击音频AI评估依赖标注数据的行业痛点，有望重塑模型迭代逻辑。从应用层面看，它正将专业音频后期能力“民主化”，从内容创作者到助听器厂商均可受益。更深远地看，SAM Audio与视觉提示的结合，暗示了下一代交互范式：用户通过“指哪打哪”的直觉操作，即可驱动AI完成复杂感知任务。这不仅是工具进化，更是人机协同体验的深刻变革，为具身智能与无障碍科技开辟了新想象空间。

Meta开源SAM Audio：音频分割革命性突破，多模态提示精准分离任意声音

SAM Audio是什么

SAM Audio的主要功能

SAM Audio的技术原理

SAM Audio的项目地址

SAM Audio的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

[AI生图咒语] 严肃职业肖像摄影提示词 (LinkedIn/商务高管头像)

Cosmos 3 Edge – 英伟达开源的 4B 参数世界模型

BigMac – 小红书开源的多模态大模型流水并行训练框架

Kimi K3 攻防考卷翻车：漏洞利用只到美国前沿模型四成，蒸馏疑云被安全机构摆上台

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

SAM Audio是什么

SAM Audio的主要功能

SAM Audio的技术原理

SAM Audio的项目地址

SAM Audio的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复