Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: OSUM – 西北工业大学开源的语音理解模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > OSUM – 西北工业大学开源的语音理解模型
AIGC 资讯

OSUM – 西北工业大学开源的语音理解模型

站外新闻
最近更新: 2026年6月8日 下午9:01
SHARE

OSUM是什么

OSUM(Open Speech Understanding Model)是西北工业大学计算机学院音频、语音与语言处理研究组推出的开源语音理解模型。OSUM结合Whisper编码器和Qwen2 LLM,支持语音识别(ASR)、语音情感识别(SER)、说话者性别分类(SGC)等多种语音任务。OSUM基于“ASR+X”多任务训练策略,用模态对齐和目标任务的优化,实现高效稳定的训练。OSUM用约5万小时的多样化语音数据进行训练,性能在多项任务中表现优异,在中文ASR和多任务泛化能力上表现出色。

阅读目录
  • OSUM是什么
  • OSUM的主要功能
  • OSUM的技术原理
  • OSUM的项目地址
  • OSUM的应用场景

OSUM

OSUM的主要功能

  • 语音识别:将语音转换为文本,支持多种语言和方言。
  • 带时间戳的语音识别:在识别语音内容的同时,输出每个单词或短语的起止时间。
  • 语音事件检测:识别语音中的特定事件(如笑声、咳嗽、背景噪音等)。
  • 语音情感识别:分析语音中的情感状态(如高兴、悲伤、愤怒等)。
  • 说话风格识别:识别说话者的风格(如新闻播报、客服对话、日常口语等)。
  • 说话者性别分类:判断说话者的性别(男性或女性)。
  • 说话者年龄预测:预测说话者的年龄范围(如儿童、成年人、老年人)。
  • 语音转文本聊天:将语音输入转化为自然语言回复,用在对话系统。

OSUM的技术原理

  • Speech Encoder:用Whisper-Medium模型(769M参数),负责将语音信号编码为特征向量。
  • Adaptor:包含3层卷积和4层Transformer,用在适配语音特征与语言模型的输入。
  • LLM(语言模型):基于Qwen2-7B-Instruct,用LoRA(Low-Rank Adaptation)微调,适应多任务需求。
  • 多任务训练策略:
    • ASR+X训练范式:同时训练语音识别(ASR)任务和一个附加任务(如SER、SGC等)。基于共享特征和优化目标,提升模型的泛化能力和稳定性。
    • 自然语言Prompt:基于为LLM提供不同的自然语言提示(Prompt),引导模型执行不同的任务。
  • 数据处理与训练:约5万小时的多样化语音数据进行多任务训练,数据集包括开源数据和内部处理数据。训练分为两个阶段:首先对Whisper模型进行多任务微调,然后与LLM结合,进行进一步的监督训练。

OSUM的项目地址

  • GitHub仓库:https://github.com/ASLP-lab/OSUM
  • arXiv技术论文:https://arxiv.org/pdf/2501.13306v2
  • 在线体验Demo:https://huggingface.co/spaces/ASLP-lab/OSUM

OSUM的应用场景

  • 智能客服:基于语音识别和情感分析,自动理解客户需求并提供个性化服务。
  • 智能家居:识别语音指令和背景事件,优化语音交互体验。
  • 教育工具:分析学生语音,提供个性化学习反馈。
  • 心理健康监测:检测语音中的情绪变化,辅助心理健康评估。
  • 多媒体内容创作:自动生成字幕和标签,辅助视频编辑。
Collaborative Gym – 支持人与AI代理实时交互协作的评估框架
苹果AI图像生成迎来史诗级升级:Image Playground依托Gemini与私有云,OS27能否重塑用户口碑?
360重磅开源FG-CLIP 2:超越Google与Meta,全球最强双语视觉语言模型来了!
快手Q1财报深度:AI成’利润黑洞’,可灵视频陷转型阵痛,34亿净利暴跌26%
腾讯混元HunyuanVideo-Foley开源:AI视频音效生成模型,多模态扩散变换器驱动沉浸式创作
分享
Email 复制链接 打印
Share
上一篇 URO-Bench – AI基准测试工具,专为端到端语音对话模型设计
下一篇 GLM-Z1-32B – 智谱开源的新一代推理模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

字节跳动发布SeedVR2:单步视频修复模型,以极低成本实现1080p高清画质革新
AI 工具 AIGC 资讯
北大微软联手突破:Next-Frame Diffusion实现30+FPS实时自回归视频生成,扩散模型与因果注意力新范式
AI 工具 AIGC 资讯
美团LLIA框架深度解析:实时音频驱动肖像视频生成,如何实现低延迟高保真交互?
AI 工具 AIGC 资讯
腾讯开源Hunyuan3D-2.1:工业级3D生成模型,支持PBR材质与多模态输入,1秒极速出图
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

potpie.ai – AI代码库Agent构建平台,自动化代码分析、测试和开发任务

站外新闻
AIGC 资讯

CoA – 谷歌推出的多智能体协作框架

站外新闻
AI 工具AIGC 资讯

科大讯飞星火X2-Flash MoE大模型发布:30B参数对标万亿级性能,Agent时代性价比之王

站外新闻
MoE大模型 华为昇腾 星火X2-Flash 智能体Agent 科大讯飞
AI 工具AIGC 资讯

GPT-5.3 Codex发布:OpenAI最强编程AI模型,性能飙升25%并重新定义软件工程

站外新闻
GPT-5.3 Codex openai SWE-Bench 编程AI模型 软件工程
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.