Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Meta开源SAM Audio:音频分割革命性突破,多模态提示精准分离任意声音
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > Meta开源SAM Audio:音频分割革命性突破,多模态提示精准分离任意声音
AI 工具AIGC 资讯

Meta开源SAM Audio:音频分割革命性突破,多模态提示精准分离任意声音

站外新闻
最近更新: 2026年6月7日 下午8:10
meta SAM Audio 多模态AI 开源模型 音频分割
SHARE

💡 站外导读:在播客录制、视频制作或音乐创作中,你是否苦于无法从嘈杂背景中分离出清晰的人声或特定乐器?传统音频处理工具往往需要复杂的参数调整,且效果有限。随着AIGC与多模态技术的爆发式发展,音频AI正迎来从“听清”到“听懂”的范式跃迁。Meta开源的SAM Audio正是这一趋势下的标志性产物,它将视觉、文本等多模态信息引入音频分割,标志着音频处理进入智能提示、精准分离的新时代。

SAM Audio是什么

SAM Audio是Meta开源的音频分割模型,能通过文本、视觉和时间片段等多模态提示,从复杂的音频混合中分离出特定的声音。核心技术是Perception Encoder Audiovisual(PE-AV),基于Meta开源的Perception Encoder模型,能融合视听信息并进行精确的时间标注,实现高精度的音频分离。用户可以通过简单的文本描述(如“吉他声”)、在视频中点击发声物体,或者标记声音出现的时间范围来使用SAM Audio。

阅读目录
  • SAM Audio是什么
  • SAM Audio的主要功能
  • SAM Audio的技术原理
  • SAM Audio的项目地址
  • SAM Audio的应用场景
      • 📝 站长洞察 (Editor’s Insight)

SAM Audio

SAM Audio的主要功能

  • 多模态提示音频分离:通过文本描述、视觉选择(视频中的对象)或时间片段标记,从复杂音频混合中分离出特定声音。
  • 支持多种音频任务:能处理语音、音乐、通用音效等多种音频分离任务,适用于不同场景。
  • 无参考音频评测:提供SAM Audio Judge,一种无需参考音频的客观评测模型,从感知层面评估音频分离质量。
  • 真实环境基准测试:发布SAM Audio-Bench,首个真实环境的音频分离基准,覆盖多种音频领域和提示类型,支持无参考评估。
  • 高效实时处理:运行速度快于实时处理,实时因子约为0.7,适合大规模音频处理。
  • 助力无障碍技术:与相关机构合作,探索在无障碍技术中的应用,如助听器集成等,推动音频AI的包容性发展。

SAM Audio的技术原理

  • 感知编码器视听模块(PE-AV):基于Meta开源的Perception Encoder模型,PE-AV能提取逐帧视频特征并与音频表示对齐,融合视听信息,为音频分离提供精确的时间标注和语义丰富的特征表示。
  • 流匹配扩散Transformer架构:采用生成式建模框架,将混合音频和提示信息编码为共享表示,生成目标音轨与剩余音轨,支持多种模态的提示输入。
  • 大规模多模态数据训练:通过融合真实与合成的混合音频数据进行训练,涵盖语音、音乐和通用音效等多种声音事件,结合先进的音频合成策略,提升模型的鲁棒性和泛化能力。
  • 无参考音频评测模型:SAM Audio Judge基于感知维度进行音频质量评估,无需参考音轨,提供更贴近人类听觉体验的客观评测标准。
  • 真实环境基准测试:SAM Audio-Bench作为首个真实环境的音频分离基准,覆盖多种音频任务和模态提示,支持无参考评估,确保模型在实际应用中的有效性。

SAM Audio的项目地址

  • 项目官网:https://ai.meta.com/samaudio/
  • Github仓库:https://github.com/facebookresearch/sam-audio

SAM Audio的应用场景

  • 音频清理与背景噪声移除:从音频文件中去除不需要的背景噪音,例如在播客录音中去除狗叫声或交通噪声,提升音频质量。
  • 创意媒体制作:帮助创作者从歌曲中提取特定乐器声音、分离人声或进行音频重新混音,增强创意表达。
  • 无障碍技术:与助听器制造商合作,探索在听力辅助设备中的应用,帮助听力受损人群更好地理解音频内容。
  • 视频编辑:在视频制作中,通过视觉提示分离特定对象的声音,例如点击视频中的吉他手来提取吉他声,提升视频编辑的灵活性。
  • 音频分析与研究:为音频分析提供工具,帮助研究人员分离和研究特定的声音事件,适用于音乐分析、声音生态学等领域。

📝 站长洞察 (Editor’s Insight)

SAM Audio的发布不仅是技术开源,更是Meta在“感知AI”生态布局的关键落子。它将音频处理从单模态推向视听融合,这与当下大模型的多模态演进路径高度一致——未来AI的核心能力在于跨模态理解与交互。其引入的“无参考评测”标准,直击音频AI评估依赖标注数据的行业痛点,有望重塑模型迭代逻辑。从应用层面看,它正将专业音频后期能力“民主化”,从内容创作者到助听器厂商均可受益。更深远地看,SAM Audio与视觉提示的结合,暗示了下一代交互范式:用户通过“指哪打哪”的直觉操作,即可驱动AI完成复杂感知任务。这不仅是工具进化,更是人机协同体验的深刻变革,为具身智能与无障碍科技开辟了新想象空间。

BioMedGPT-R1 – 清华联合水木分子推出的多模态生物医药大模型
Magentic-UI – 微软开源的人机协作AI Agent研究原型
小红书Hi Lab重磅开源dots.vlm1:12亿参数视觉编码器+DeepSeek V3,多模态大模型性能直逼闭源SOTA
Visual Story-Writing:GPT-4o驱动的AI可视化故事创作工具,重塑小说与剧本写作
Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
TAGGED:metaSAM Audio多模态AI开源模型音频分割
分享
Email 复制链接 打印
Share
上一篇 Gemini 3 Flash发布:谷歌全新高速低成本AI模型,性能直逼GPT-5.2,开发者与企业首选
下一篇 阶跃星辰 Step-GUI 系列模型发布:自进化AI Agent、端云协同与隐私保护,定义GUI自动化新标准
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

流光脑波AI大脑占位特色图
2026年3月美国AI榜单巨变:Claude单月狂飙130%紧追ChatGPT,格局突变信号已现
AIGC 资讯 最新趋势
得物实战揭秘:AI Coding工具如何突破数仓开发’失忆’痛点,Harness工程引领新范式
AI 工具 AIGC 资讯
全息流体渐变通用占位特色图
历史性和解!Meta妥协规避审判,美国首例学校诉社交媒体成瘾案落幕,揭示行业司法风向
AIGC 资讯
量子芯片科技感占位特色图
Spotify与环球音乐联手:AI翻唱混音工具上线,正版版权终结Suno野蛮生长
AI 工具 AIGC 资讯 最新趋势

相关推荐

AIGC 资讯

CHRONOS – 阿里通义联合上海交大等推出时间线摘要生成新框架

站外新闻
AI 工具

VEG3

remaker
AI 工具

Taiga

remaker
AI 工具

Profile Picture AI

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 轻量级模型 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.