Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 英伟达开源PersonaPlex全双工语音AI模型:同时听和说,角色可定制,重新定义人机交互
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 英伟达开源PersonaPlex全双工语音AI模型:同时听和说,角色可定制,重新定义人机交互
AI 工具AIGC 资讯

英伟达开源PersonaPlex全双工语音AI模型:同时听和说,角色可定制,重新定义人机交互

站外新闻
最近更新: 2026年6月7日 下午8:08
AIGC PersonaPlex 全双工AI 英伟达 语音大模型
SHARE

💡 站外导读:在当前的AI语音交互领域,多数系统仍受限于“一问一答”的延迟模式,难以模拟人类对话的流畅与自然。这种割裂感在客服、教育等实时场景中尤为突出,用户体验不佳。英伟达推出的PersonaPlex模型,正是为了破解这一核心痛点。它不仅实现了全双工通信——让AI能像人一样同时倾听和回应,更赋予了AI独特的“角色扮演”能力,预示着AI助手正从功能工具向具有个性和情境感知的交互伙伴进化。

PersonaPlex是什么

NVIDIA PersonaPlex 是英伟达推出的全双工对话AI模型,具备同时听和说的能力,能处理自然对话中的打断、停顿和回应。用户可通过语音和文本提示自定义角色和声音,让 AI 扮演从智慧助手到客服人员的多种角色。模型结合真实对话数据和合成数据进行训练,展现出色的对话自然性和任务遵循能力。PersonaPlex 在多种场景中表现出色,如教育、客服和紧急情况处理,为用户提供真正自然和人性化的交互体验。其中PersonaPlex-7B-v1模型现已开源,供开发者使用。

阅读目录
  • PersonaPlex是什么
  • PersonaPlex的主要功能
  • PersonaPlex的技术原理
  • PersonaPlex的项目地址
  • PersonaPlex的应用场景
      • 📝 站长洞察 (Editor’s Insight)

PersonaPlex

PersonaPlex的主要功能

  • 全双工对话能力:PersonaPlex能同时听和说,支持实时交互,自然处理对话中的打断、停顿和回应,使对话更加流畅和自然。
  • 角色和声音定制:用户可通过文本提示定义角色(如智慧助手、客服人员、虚构角色等),并通过语音提示选择不同的声音风格和语调,实现高度个性化的交互。
  • 自然对话行为:支持自然的对话节奏,包括打断、回应(如“嗯哼”、“好的”等)和适当的停顿,让对话感觉更像人类之间的交流。
  • 任务遵循能力:支持根据文本提示执行特定任务,如提供客户服务、解答问题或进行技术讨论,在对话中保持一致的角色表现。

PersonaPlex的技术原理

  • 全双工架构:PersonaPlex基于全双工模型,能同时处理用户的语音输入和生成语音输出,避免传统级联系统(ASR→LLM→TTS)的延迟。模型在用户说话的同时更新内部状态,能立即流式传输响应,实现低延迟交互。
  • 混合提示架构:
    • 语音提示:用音频嵌入(audio embedding)捕捉声音特征、说话风格和韵律。
    • 文本提示:通过自然语言描述角色、背景信息和对话上下文。
    • 联合处理:语音提示和文本提示联合处理,生成连贯的角色表现。
  • Transformer架构:Mimi语音编码器将音频转换为文本标记(tokens)。Temporal和Depth Transformer能处理对话内容和行为,如何时停顿、何时打断。Mimi语音解码器将文本标记转换为输出语音,支持24kHz的采样率。
  • 训练数据:模型用Fisher English语料库中的7303段真实对话(1217小时),通过GPT-OSS-120B生成角色描述。模型用语言模型生成对话脚本,通过Chatterbox TTS合成语音,覆盖多种场景和角色。将真实对话和合成对话结合训练,使模型能学习自然的语音模式和遵循任务要求。

PersonaPlex的项目地址

  • 项目官网:https://research.nvidia.com/labs/adlr/personaplex/
  • GitHub仓库:https://github.com/NVIDIA/personaplex
  • HuggingFace模型库:https://huggingface.co/nvidia/personaplex-7b-v1

PersonaPlex的应用场景

  • 教育领域:作为智慧教师,提供清晰且引人入胜的解答和建议,帮助学生更好地理解知识。
  • 客户服务:模型能扮演银行客服或医疗前台角色,根据文本提示处理客户问题,提供专业且富有同理心的服务。
  • 娱乐和社交:模拟各种虚构角色或进行开放式的闲聊,为用户提供有趣且个性化的社交体验。
  • 紧急情况应对:在模拟的太空任务等紧急场景中,用专业角色提供技术支持和紧急应对建议。
  • 医疗咨询:在医疗场景中协助记录患者信息,提供专业建议,支持医疗人员的日常工作。

📝 站长洞察 (Editor’s Insight)

PersonaPlex的发布,标志着AI语音交互从“功能响应”迈向“情境对话”的关键一跃。其全双工架构解决了长期存在的交互延迟问题,而基于混合提示的角色定制能力,则将AI应用推向了深度个性化的新高度。这不仅是技术的迭代,更是交互范式的革新。它预示着未来的AI界面将不再是冰冷的问答框,而是能够理解上下文、具备特定性格和专业背景的“数字生命体”。在AIGC应用日益追求沉浸感和拟人化的今天,PersonaPlex为虚拟助手、数字人乃至元宇宙社交奠定了关键的基础架构。英伟达此举,无疑是在抢占下一代人机交互标准的制高点。

2026游戏AI革命:从降本增效到重塑体验,中国厂商如何把握关键赛点?
风宇 – 中国气象局联合华为和南昌大学推出的空间天气大模型
DeepSeek-OCR开源:10倍压缩97%精度,高效文档处理迎来颠覆性突破
UnlimitedBG
DiffEditor – 北大联合腾讯推出的细粒度图像编辑工具
TAGGED:AIGCPersonaPlex全双工AI英伟达语音大模型
分享
Email 复制链接 打印
Share
上一篇 智谱开源GLM-4.7-Flash:300亿参数免费调用,编程中文写作翻译全面超越同类模型
下一篇 VerseCrafter:复旦腾讯联手开源,4D几何控制重塑动态视频生成新范式
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

流光脑波AI大脑占位特色图
2026年3月美国AI榜单巨变:Claude单月狂飙130%紧追ChatGPT,格局突变信号已现
AIGC 资讯 最新趋势
得物实战揭秘:AI Coding工具如何突破数仓开发’失忆’痛点,Harness工程引领新范式
AI 工具 AIGC 资讯
全息流体渐变通用占位特色图
历史性和解!Meta妥协规避审判,美国首例学校诉社交媒体成瘾案落幕,揭示行业司法风向
AIGC 资讯
量子芯片科技感占位特色图
Spotify与环球音乐联手:AI翻唱混音工具上线,正版版权终结Suno野蛮生长
AI 工具 AIGC 资讯 最新趋势

相关推荐

AI 工具AIGC 资讯

通义千问Qwen VLo深度解析:一文看懂多模态统一理解与生成模型的技术原理、核心功能与应用场景

站外新闻
AIGC AI工具 图像生成 多模态大模型 通义千问
AI 工具AIGC 资讯

华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能

站外新闻
AI大模型 MoE 产业智能化 华为盘古大模型 多模态
AI 工具AIGC 资讯最新趋势

谷歌强推AI搜索遭反噬,DuckDuckGo下载量飙升30%:隐私搜索如何逆势崛起?

站外新闻
AI Overviews DuckDuckGo 用户选择权 谷歌AI搜索 隐私保护
AI 工具

海艺AI

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 轻量级模型 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.