Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: SpeechGPT 2.0-preview – 复旦大学推出的端到端实时语音交互模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > SpeechGPT 2.0-preview – 复旦大学推出的端到端实时语音交互模型
AIGC 资讯

SpeechGPT 2.0-preview – 复旦大学推出的端到端实时语音交互模型

站外新闻
最近更新: 2026年6月8日 下午10:49
SHARE

SpeechGPT 2.0-preview是什么

SpeechGPT 2.0-preview 是复旦大学 OpenMOSS 团队推出的拟人化实时交互系统,基于百万小时级中文语音数据训练,采用端到端架构,实现了语音与文本模态的高度融合。模型具有拟人口语化表达、百毫秒级低延迟响应,支持自然流畅的实时打断交互。能精准控制语速、情感、风格和音色,实现智能切换。SpeechGPT 2.0-preview 具备多种语音才艺,如诗歌朗诵、故事讲述、说方言等。

阅读目录
  • SpeechGPT 2.0-preview是什么
  • SpeechGPT 2.0-preview的主要功能
  • SpeechGPT 2.0-preview的技术原理
  • SpeechGPT 2.0-preview的项目地址
  • SpeechGPT 2.0-preview的应用场景

SpeechGPT 2.0-preview

SpeechGPT 2.0-preview的主要功能

  • 情感与风格控制:支持多情感(如虚弱、欢快)、多音色(男女切换)及多风格(诗歌朗诵、方言模仿)的精准控制,角色扮演能力突出。
  • 实时打断交互:百毫秒级响应速度支持自然对话中的即时打断与续接。
  • 文本能力集成:在语音表现力基础上,保留文本模型的智商,支持工具调用、联网搜索、外挂知识库接入等功能。
  • 多任务兼容性:可处理长文档解析、多轮对话等场景,兼容短文本任务的性能未因长上下文能力而降低。

SpeechGPT 2.0-preview的技术原理

  • 端到端语音建模
    • 超低比特率流式语音 Codec:自研的超低比特率流式语音 Codec,能够处理 24khz 的语音输入,将语音压缩至每秒 75 个 token,支持流式输入输出,实现 200ms 以内延迟的实时交互。
    • 语义-声学联合建模:通过语义-声学联合建模,直接处理语音输入并生成语音或文本输出,无需传统级联式 ASR(语音识别)和 TTS(语音合成)模块。
  • 语音-文本混合建模
    • Codec Patchify:通过 Codec Patchify 技术聚合相邻时间步的语音 token 为统一向量,有效减小语音和文本序列之间的模态差异,缓解跨模态建模中的冲突问题。
    • 多阶段训练流程:包括模态适应预训练、跨模态指令微调和链式模态微调,兼顾文本能力与语音能力,避免模型在学习语音能力时降低智商。
  • 语音文本对齐预训练:通过充分的语音文本对齐预训练,模型可以“涌现”出语音风格的泛化性,例如无需语速调整数据即可控制语速,或模仿未见过的角色语气风格。
  • 模型架构设计
    • 语音文本联合建模:speech-text LLM 会同时输入和输出语音和文本表示,LLM 的隐藏状态同时用于语音和文本的解码任务。
    • 多解码头的自回归语言模型:设计了具有多解码头的自回归语言模型作为 patch decoder,能通过自回归方式逐步解码,每次生成一个时间步的多个 RVQ codec token,输出语音。

SpeechGPT 2.0-preview的项目地址

  • 项目官网:https://www.open-moss.com/cn/speechgpt2-preview/
  • GitHub仓库:https://github.com/OpenMOSS/SpeechGPT-2.0-preview
  • HuggingFace模型库:https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
  • 在线体验Demo:https://sp2.open-moss.com/

SpeechGPT 2.0-preview的应用场景

  • 智能助手:可用于客服、教育或医疗等领域的智能助手,提供实时口语练习、情感陪伴等服务。
  • 内容创作:自动生成有声书、诗歌朗诵或方言内容,丰富多媒体创作形式。
  • 无障碍通信:为听障或言语障碍者提供实时语音转文字及合成服务。
Command A+ – Cohere Labs 开源的多模态大模型
Skywork-OR1 – 昆仑万维开源的高性能系列推理模型
ClawLess:南方科技大学 & 港科大AI Agent安全框架,形式化验证+系统调用拦截,构筑数学级安全壁垒
HumanRig – 阿里高德推出的3D人形角色自动绑定任务数据集
零乐理基础男子利用AI写歌实现月入十几万40秒可生成全曲风歌曲
分享
Email 复制链接 打印
Share
上一篇 OmniThink – 浙大联合阿里通义实验室推出的深度思考机器写作框架
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

OmniThink – 浙大联合阿里通义实验室推出的深度思考机器写作框架
AIGC 资讯
Command A – Cohere 推出的生成式 AI 模型
AIGC 资讯
LlamaV-o1 – 多模态视觉推理模型,采用逐步推理学习方法解决复杂任务
AIGC 资讯
SketchVideo – 快手联合多所高校推出基于草图的视频生成与编辑框架
AIGC 资讯

相关推荐

全息流体渐变通用占位特色图
AIGC 资讯

听听乱码就被“洗劫”?谷歌 Gemini 语音助理爆潜伏漏洞,黑客用特殊通知给 AI “下毒”

站外新闻
全息流体渐变通用占位特色图
AIGC 资讯

马斯克千亿资本腾挪:SpaceX低息贷款置换高息债,年省10亿美元利息

站外新闻
SpaceX 企业集团化 债务重组 资本运作 马斯克
AIGC 资讯

混元图像2.0 – 腾讯推出的实时AI图片生成大模型

站外新闻
AIGC 资讯最新趋势

AI支付革命:蚂蚁集团CEO韩歆毅发布全球首个Token Pay,定义智能体经济新基建

站外新闻
AI支付 Token Pay 支付宝 蚂蚁集团
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.