Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: TIGER – 清华大学推出的轻量级语音分离模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > TIGER – 清华大学推出的轻量级语音分离模型
AIGC 资讯

TIGER – 清华大学推出的轻量级语音分离模型

站外新闻
最近更新: 2026年6月9日 上午1:03
SHARE

TIGER是什么

TIGER(Time-frequency Interleaved Gain Extraction and Reconstruction Network)是清华大学研究团队提出的轻量级语音分离模型,通过时频交叉建模策略,结合频带切分和多尺度注意力机制,显著提升了语音分离的效果,降低了参数量和计算量。 TIGER 的核心在于创新的时频交叉建模模块(FFI),能高效整合时间和频率信息,更好地提取语音特征。模型引入多尺度选择性注意力模块(MSA)和全频/帧注意力模块(F³A),进一步优化了特征提取能力。

阅读目录
  • TIGER是什么
  • TIGER的主要功能
  • TIGER的技术原理
  • TIGER的项目地址
  • TIGER的应用场景

TIGER

TIGER的主要功能

  • 高效语音分离:TIGER通过创新的时频交叉建模模块(FFI)和多尺度注意力机制,能高效地分离混合语音中的不同说话者。
  • 低计算量与低参数量:模型在压缩94.3%的参数量和95.3%的计算量后,性能仍与当前最先进的模型相当。
  • 复杂声学环境适应:TIGER通过EchoSet数据集模拟真实场景中的噪声和混响,提升模型在复杂环境下的鲁棒性。

TIGER的技术原理

  • 时频交叉建模策略:TIGER 的核心在于时频交叉建模模块(FFI),通过交替处理时间和频率信息,有效整合时频特征。模块包含频率路径和帧路径,每个路径都包含多尺度选择性注意力模块(MSA)和全频/帧注意力模块(F³A),能融合局部和全局信息,提升语音分离效果。
  • 频带切分:语音信号的能量在不同频带上分布不均,中低频带包含更多语音信息,高频带包含更多噪声和细节。TIGER 通过频带切分策略,将频带划分为不同宽度的子带,减少计算量的同时,让模型专注于关键频带。
  • 多尺度注意力机制:TIGER 引入了多尺度选择性注意力模块(MSA),通过多尺度卷积层和选择性注意力机制,融合局部和全局信息,增强模型对多尺度特征的提取能力。
  • 整体流程:TIGER 的整体流程包括五个部分:
    • 编码器:将混合音频信号通过短时傅里叶变换(STFT)转换为时频表示。
    • 频带切分模块:将整个频带划分为多个子带,每个子带通过一维卷积转换为统一的特征维度。
    • 分离器:由多个时频交叉建模模块(FFI)组成,用于提取每个说话者的声学特征。
    • 频带恢复模块:将子带恢复到全频带范围。
    • 解码器:通过逆短时傅里叶变换(iSTFT)生成每个说话者的清晰语音信号。

TIGER的项目地址

  • 项目官网:https://cslikai.cn/TIGER/
  • Github仓库:https://github.com/JusperLee/TIGER
  • arXiv技术论文:https://arxiv.org/pdf/2410.01469

TIGER的应用场景

  • 会议及演讲记录:在多人发言的会议或演讲场景中,TIGER 可以高效分离不同发言人的语音,提升会议记录的效率和准确性。
  • 视频剪辑与制作:在视频内容创作中,TIGER 能精确分离主播与背景音或其他人物的语音,方便后期制作和剪辑。
  • 电影音频处理:TIGER 在电影音频分离任务中表现出色,能分离出人声、音乐和音效,提升音频处理的灵活性和质量。
  • 智能语音助手:在智能语音助手应用中,TIGER 可以帮助分离用户语音和背景噪声,提升语音交互的体验。
蚂蚁百灵开源万亿参数模型Ling-2.6-1T:智效比登顶,AIME26/SWE-bench双料SOTA,专为Agent与Coding打造
MineWorld – 微软研究院开源的实时交互式世界模型
文心大模型X1 – 百度推出的深度思考模型
Llama Nemotron – 英伟达推出的系列推理模型
DeepSeek R1-Zero – DeepSeek推出的开源推理模型,基于纯强化学习训练
分享
Email 复制链接 打印
Share
上一篇 Magma – 微软研究院联合华盛顿等高校推出的多模态AI基础模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Magma – 微软研究院联合华盛顿等高校推出的多模态AI基础模型
AIGC 资讯
NEXUS-O – 多模态AI模型,实现对语言、音频和视觉全方位感知与交互
AIGC 资讯
FlashVideo – 字节联合港大推出的高分辨率视频生成框架
AIGC 资讯
食神 – 老板电器推出的首个烹饪大模型
AIGC 资讯

相关推荐

AI 工具AIGC 资讯

快手KAT-Coder-Pro V2重磅发布:SWE-Bench追平GPT-5,前端美学生成断层领先,国产AI编程模型新标杆

站外新闻
Agentic Coding AI编程模型 KAT-Coder-Pro V2 SWE-Bench 快手KwaiKAT
AIGC 资讯最新趋势

Anthropic完成史诗级H轮融资650亿美元,Claude Opus 4.8模型同步发布,AI巨头估值飙升逼近万亿美元里程碑

站外新闻
AI大模型 Anthropic Claude H轮融资 估值
AIGC 资讯最新趋势

估值110亿!智能戒指龙头Oura秘密提交IPO,AI驱动预防医学赛道迎来里程碑

站外新闻
AI预防医学 IPO Oura 可穿戴设备 智能戒指
AIGC 资讯

CityDreamer4D – 南洋理工推出的无边界 4D 城市建模框架

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.