Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Hibiki – Kyutai Labs 推出的实时语音翻译模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Hibiki – Kyutai Labs 推出的实时语音翻译模型
AIGC 资讯

Hibiki – Kyutai Labs 推出的实时语音翻译模型

站外新闻
最近更新: 2026年6月9日 上午8:59
SHARE

Hibiki是什么

Hibiki是Kyutai Labs开源的用在同时语音翻译的解码器模型,能实时将一种语言的语音翻译成另一种语言的语音或文本。Hibiki基于多流语言模型架构,同步处理源语音和目标语音,联合生成文本和音频标记,实现语音到语音(S2ST)和语音到文本(S2TT)的翻译功能。Hibiki用弱监督学习方法,基于文本翻译系统的困惑度识别单词级的最佳延迟,创建对齐的合成数据进行训练。Hibiki模型在法语到英语的翻译任务中表现出色,具有高翻译质量、说话者保真度和自然度,支持批量翻译和实时设备端部署,展现了强大的实用潜力。

阅读目录
  • Hibiki是什么
  • Hibiki的主要功能
  • Hibiki的技术原理
  • Hibiki的项目地址
  • Hibiki的应用场景

Hibiki

Hibiki的主要功能

  • 实时语音到语音翻译(S2ST):将一种语言的语音实时翻译成另一种语言的语音,保留说话者的音色和语调。
  • 实时语音到文本翻译(S2TT):将语音实时翻译成目标语言的文本,提供更灵活的使用场景。
  • 低延迟翻译:基于实时积累上下文信息,逐块生成翻译内容,延迟极低,接近人类口译水平。
  • 高保真度:生成的语音自然流畅,与源语音的音色和语调高度相似,用户体验接近专业人类口译。
  • 支持批量和实时部署:推理过程简单,支持批量处理和实时设备端部署,适合大规模应用。

Hibiki的技术原理

  • 多流语言模型架构:
    • 同步处理:同时接收源语音和生成目标语音,基于多流架构联合建模两个音频流。
    • 文本和音频标记:模型预测文本和音频标记的层次结构,实现语音到文本和语音到语音的翻译。
    • 因果音频编解码器:用预训练的因果音频编解码器(如Mimi)将语音编码为低帧率的离散标记,支持实时流式处理。
  • 弱监督学习与上下文对齐:
    • 合成数据生成:基于翻译单语音频的转录文本并重新合成目标语音,生成对齐的合成数据。
    • 上下文对齐:用现成文本翻译系统的困惑度,计算单词级对齐,确保目标语音的生成与源语音的上下文同步。
    • 静音插入与对齐感知TTS:基于插入静音或用对齐感知的TTS模型重新合成目标语音,确保目标语音的延迟符合实时翻译的要求。
  • 说话者相似性与分类器自由引导:
    • 说话者相似性标记:对训练数据进行说话者相似性分类标记,避免过滤数据的同时,在推理时优先选择高相似性样本。
    • 分类器自由引导:调整条件标签的权重,增强模型对说话者相似性的控制,进一步提升语音保真度。
  • 高效的推理过程:
    • 温度采样:用温度采样技术,结合因果音频编解码器,实现流式输入和输出。
    • 批量处理与实时部署:推理过程简单高效,支持批量处理和实时设备端部署,适合大规模应用场景。

Hibiki的项目地址

  • GitHub仓库:https://github.com/kyutai-labs/hibiki
  • HuggingFace模型库:https://huggingface.co/collections/kyutai/hibiki
  • arXiv技术论文:https://arxiv.org/pdf/2502.03382

Hibiki的应用场景

  • 国际会议:实时翻译不同语言的发言,帮助参会者即时理解内容。
  • 在线教育:将教师的授课语音实时翻译,方便学生无障碍学习。
  • 旅游出行:实时翻译导游讲解或与当地人交流,增强旅游体验。
  • 新闻采访:帮助记者快速翻译采访内容,提升报道效率。
  • 客户服务:实现多语言客服沟通,提升客户满意度。
Maestro – 开源的端到端自动化测试框架
StreamBridge – 苹果联合复旦推出的端侧视频大语言模型框架
OpenAI 发布 GPT-5.3-Codex-Spark:轻量级编程模型,推理速度破1000 tokens/秒,定义实时协作新范式
GitHub MCP Server – GitHub推出基于 MCP 的服务器工具
日日新融合大模型 – 商汤科技推出的原生融合模态大模型
分享
Email 复制链接 打印
Share
上一篇 node-DeepResearch – Deep Research开源复现版 AI Agent,支持多步推理和复杂查询
下一篇 GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

GPT-5.4重磅发布:OpenAI旗舰模型首次在电脑操作上超越人类,专业工作效率提升83%
AI 工具 AIGC 资讯
蚂蚁集团发布Ming-flash-omni-2.0:开源全模态大模型,引领AI理解与生成一体化新范式
AI 工具 AIGC 资讯
OpenAI发布GPT-5.3-Codex-Spark:1000+ tokens/s实时编程模型,速度提升80%的开发神器
AI 工具 AIGC 资讯
GPT-5.3 Instant深度解析:免费轻量级对话模型,幻觉率降27%全面升级
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

Anthropic发布Claude Opus 4.8:代码缺陷率暴跌75%,速度提升2.5倍碾压GPT-5.5

站外新闻
AIGC Anthropic Claude Opus 4.8 智能体编程
AIGC 资讯

RAG Logger – 专为检索增强生成应用设计的开源日志工具

站外新闻
AIGC 资讯

CHRONOS – 阿里通义联合上海交大等推出时间线摘要生成新框架

站外新闻
AIGC 资讯

AndroidGen – 智谱推出增强大语言模型 Agent 能力的框架

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.