Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: SpeechGPT 2.0-preview – 复旦大学推出的端到端实时语音交互模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > SpeechGPT 2.0-preview – 复旦大学推出的端到端实时语音交互模型
AIGC 资讯

SpeechGPT 2.0-preview – 复旦大学推出的端到端实时语音交互模型

站外新闻
最近更新: 2026年6月8日 下午10:49
SHARE

SpeechGPT 2.0-preview是什么

SpeechGPT 2.0-preview 是复旦大学 OpenMOSS 团队推出的拟人化实时交互系统,基于百万小时级中文语音数据训练,采用端到端架构,实现了语音与文本模态的高度融合。模型具有拟人口语化表达、百毫秒级低延迟响应,支持自然流畅的实时打断交互。能精准控制语速、情感、风格和音色,实现智能切换。SpeechGPT 2.0-preview 具备多种语音才艺,如诗歌朗诵、故事讲述、说方言等。

阅读目录
  • SpeechGPT 2.0-preview是什么
  • SpeechGPT 2.0-preview的主要功能
  • SpeechGPT 2.0-preview的技术原理
  • SpeechGPT 2.0-preview的项目地址
  • SpeechGPT 2.0-preview的应用场景

SpeechGPT 2.0-preview

SpeechGPT 2.0-preview的主要功能

  • 情感与风格控制:支持多情感(如虚弱、欢快)、多音色(男女切换)及多风格(诗歌朗诵、方言模仿)的精准控制,角色扮演能力突出。
  • 实时打断交互:百毫秒级响应速度支持自然对话中的即时打断与续接。
  • 文本能力集成:在语音表现力基础上,保留文本模型的智商,支持工具调用、联网搜索、外挂知识库接入等功能。
  • 多任务兼容性:可处理长文档解析、多轮对话等场景,兼容短文本任务的性能未因长上下文能力而降低。

SpeechGPT 2.0-preview的技术原理

  • 端到端语音建模
    • 超低比特率流式语音 Codec:自研的超低比特率流式语音 Codec,能够处理 24khz 的语音输入,将语音压缩至每秒 75 个 token,支持流式输入输出,实现 200ms 以内延迟的实时交互。
    • 语义-声学联合建模:通过语义-声学联合建模,直接处理语音输入并生成语音或文本输出,无需传统级联式 ASR(语音识别)和 TTS(语音合成)模块。
  • 语音-文本混合建模
    • Codec Patchify:通过 Codec Patchify 技术聚合相邻时间步的语音 token 为统一向量,有效减小语音和文本序列之间的模态差异,缓解跨模态建模中的冲突问题。
    • 多阶段训练流程:包括模态适应预训练、跨模态指令微调和链式模态微调,兼顾文本能力与语音能力,避免模型在学习语音能力时降低智商。
  • 语音文本对齐预训练:通过充分的语音文本对齐预训练,模型可以“涌现”出语音风格的泛化性,例如无需语速调整数据即可控制语速,或模仿未见过的角色语气风格。
  • 模型架构设计
    • 语音文本联合建模:speech-text LLM 会同时输入和输出语音和文本表示,LLM 的隐藏状态同时用于语音和文本的解码任务。
    • 多解码头的自回归语言模型:设计了具有多解码头的自回归语言模型作为 patch decoder,能通过自回归方式逐步解码,每次生成一个时间步的多个 RVQ codec token,输出语音。

SpeechGPT 2.0-preview的项目地址

  • 项目官网:https://www.open-moss.com/cn/speechgpt2-preview/
  • GitHub仓库:https://github.com/OpenMOSS/SpeechGPT-2.0-preview
  • HuggingFace模型库:https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
  • 在线体验Demo:https://sp2.open-moss.com/

SpeechGPT 2.0-preview的应用场景

  • 智能助手:可用于客服、教育或医疗等领域的智能助手,提供实时口语练习、情感陪伴等服务。
  • 内容创作:自动生成有声书、诗歌朗诵或方言内容,丰富多媒体创作形式。
  • 无障碍通信:为听障或言语障碍者提供实时语音转文字及合成服务。
Mistral AI开源Leanstral:120B参数仅$18,重新定义AI代码智能体与形式化证明
爱诗科技发布PixVerse R1:全球首个通用实时世界模型,AI视频生成迈入「即时互动」新时代
WebWalker – 阿里推出用于评估LLMs在网页浏览任务中性能的基准工具
高德发布全球首个3D原生城市世界模型ABot-Earth0.5,已开放内测
估值一年翻倍!AI网关巨头OpenRouter获谷歌1.13亿美元投资,揭示多模型调度万亿市场
分享
Email 复制链接 打印
Share
上一篇 OmniThink – 浙大联合阿里通义实验室推出的深度思考机器写作框架
下一篇 Shandu – AI研究工具,自动进行多层次信息挖掘和分析
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

字节跳动发布SeedVR2:单步视频修复模型,以极低成本实现1080p高清画质革新
AI 工具 AIGC 资讯
北大微软联手突破:Next-Frame Diffusion实现30+FPS实时自回归视频生成,扩散模型与因果注意力新范式
AI 工具 AIGC 资讯
美团LLIA框架深度解析:实时音频驱动肖像视频生成,如何实现低延迟高保真交互?
AI 工具 AIGC 资讯
腾讯开源Hunyuan3D-2.1:工业级3D生成模型,支持PBR材质与多模态输入,1秒极速出图
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

Software Copyright Materials Skill – 开源软著资料生成Skill

站外新闻
AIGC 资讯

Crawl4LLM – 清华和卡内基梅隆大学联合开源的智能爬虫系统

站外新闻
流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

AI眼镜迎来“iPhone时刻”前夜:供应链追光逐芯,恒玄科技重金押注智能眼镜SoC芯片

站外新闻
AI眼镜 MicroLED SoC芯片 恒玄科技 智能眼镜
AIGC 资讯

YuLan-OneSim – 人大高瓴AI团队推出的社会模拟器

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.