Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: OSUM – 西北工业大学开源的语音理解模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > OSUM – 西北工业大学开源的语音理解模型
AIGC 资讯

OSUM – 西北工业大学开源的语音理解模型

站外新闻
最近更新: 2026年6月8日 下午9:01
SHARE

OSUM是什么

OSUM(Open Speech Understanding Model)是西北工业大学计算机学院音频、语音与语言处理研究组推出的开源语音理解模型。OSUM结合Whisper编码器和Qwen2 LLM,支持语音识别(ASR)、语音情感识别(SER)、说话者性别分类(SGC)等多种语音任务。OSUM基于“ASR+X”多任务训练策略,用模态对齐和目标任务的优化,实现高效稳定的训练。OSUM用约5万小时的多样化语音数据进行训练,性能在多项任务中表现优异,在中文ASR和多任务泛化能力上表现出色。

阅读目录
  • OSUM是什么
  • OSUM的主要功能
  • OSUM的技术原理
  • OSUM的项目地址
  • OSUM的应用场景

OSUM

OSUM的主要功能

  • 语音识别:将语音转换为文本,支持多种语言和方言。
  • 带时间戳的语音识别:在识别语音内容的同时,输出每个单词或短语的起止时间。
  • 语音事件检测:识别语音中的特定事件(如笑声、咳嗽、背景噪音等)。
  • 语音情感识别:分析语音中的情感状态(如高兴、悲伤、愤怒等)。
  • 说话风格识别:识别说话者的风格(如新闻播报、客服对话、日常口语等)。
  • 说话者性别分类:判断说话者的性别(男性或女性)。
  • 说话者年龄预测:预测说话者的年龄范围(如儿童、成年人、老年人)。
  • 语音转文本聊天:将语音输入转化为自然语言回复,用在对话系统。

OSUM的技术原理

  • Speech Encoder:用Whisper-Medium模型(769M参数),负责将语音信号编码为特征向量。
  • Adaptor:包含3层卷积和4层Transformer,用在适配语音特征与语言模型的输入。
  • LLM(语言模型):基于Qwen2-7B-Instruct,用LoRA(Low-Rank Adaptation)微调,适应多任务需求。
  • 多任务训练策略:
    • ASR+X训练范式:同时训练语音识别(ASR)任务和一个附加任务(如SER、SGC等)。基于共享特征和优化目标,提升模型的泛化能力和稳定性。
    • 自然语言Prompt:基于为LLM提供不同的自然语言提示(Prompt),引导模型执行不同的任务。
  • 数据处理与训练:约5万小时的多样化语音数据进行多任务训练,数据集包括开源数据和内部处理数据。训练分为两个阶段:首先对Whisper模型进行多任务微调,然后与LLM结合,进行进一步的监督训练。

OSUM的项目地址

  • GitHub仓库:https://github.com/ASLP-lab/OSUM
  • arXiv技术论文:https://arxiv.org/pdf/2501.13306v2
  • 在线体验Demo:https://huggingface.co/spaces/ASLP-lab/OSUM

OSUM的应用场景

  • 智能客服:基于语音识别和情感分析,自动理解客户需求并提供个性化服务。
  • 智能家居:识别语音指令和背景事件,优化语音交互体验。
  • 教育工具:分析学生语音,提供个性化学习反馈。
  • 心理健康监测:检测语音中的情绪变化,辅助心理健康评估。
  • 多媒体内容创作:自动生成字幕和标签,辅助视频编辑。
美国Opus 4.8被曝’蒸馏’中国开源大模型:Anthropic的AI双标之路
百度MEG组织架构调整:升级数字人业务并成立大商业事业部
Bernini – 字节跳动开源的统一视频生成与编辑框架
开发者炸锅!Codex强制退役GPT-5.2/5.3,GPT-5.5降智风波未平引发行业焦虑
Phi-4-reasoning – 微软推出的Phi-4推理模型系列
分享
Email 复制链接 打印
Share
上一篇 URO-Bench – AI基准测试工具,专为端到端语音对话模型设计
下一篇 GLM-Z1-32B – 智谱开源的新一代推理模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

FoloUp – 开源AI语音面试平台,自动生成定制化面试问题
AIGC 资讯
GLM-Z1-32B – 智谱开源的新一代推理模型
AIGC 资讯
URO-Bench – AI基准测试工具,专为端到端语音对话模型设计
AIGC 资讯
InspireMusic – 阿里通义实验室开源的音乐生成技术
AIGC 资讯

相关推荐

量子芯片科技感占位特色图
AI 工具AIGC 资讯

字节港科大重磅突破:MMProLong以QA训练取代OCR,长文档LMM效率飙升、成本骤降

站外新闻
多模态 字节跳动 长文档处理 香港科技大学
AI 工具AIGC 资讯

重磅!小米MiMo V2系列2026年6月全面下线,开发者速迁至V2.5高性能版

站外新闻
AI开放平台 MiMo 小米 模型迭代
AIGC 资讯

Absolute Zero – 清华大学等机构推出的语言模型推理训练方法

站外新闻
AIGC 资讯

ForgeTrain – 面壁智能联合清华等开源的大模型预训练框架

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.