Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Hibiki – Kyutai Labs 推出的实时语音翻译模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Hibiki – Kyutai Labs 推出的实时语音翻译模型
AIGC 资讯

Hibiki – Kyutai Labs 推出的实时语音翻译模型

站外新闻
最近更新: 2026年6月9日 上午8:59
SHARE

Hibiki是什么

Hibiki是Kyutai Labs开源的用在同时语音翻译的解码器模型,能实时将一种语言的语音翻译成另一种语言的语音或文本。Hibiki基于多流语言模型架构,同步处理源语音和目标语音,联合生成文本和音频标记,实现语音到语音(S2ST)和语音到文本(S2TT)的翻译功能。Hibiki用弱监督学习方法,基于文本翻译系统的困惑度识别单词级的最佳延迟,创建对齐的合成数据进行训练。Hibiki模型在法语到英语的翻译任务中表现出色,具有高翻译质量、说话者保真度和自然度,支持批量翻译和实时设备端部署,展现了强大的实用潜力。

阅读目录
  • Hibiki是什么
  • Hibiki的主要功能
  • Hibiki的技术原理
  • Hibiki的项目地址
  • Hibiki的应用场景

Hibiki

Hibiki的主要功能

  • 实时语音到语音翻译(S2ST):将一种语言的语音实时翻译成另一种语言的语音,保留说话者的音色和语调。
  • 实时语音到文本翻译(S2TT):将语音实时翻译成目标语言的文本,提供更灵活的使用场景。
  • 低延迟翻译:基于实时积累上下文信息,逐块生成翻译内容,延迟极低,接近人类口译水平。
  • 高保真度:生成的语音自然流畅,与源语音的音色和语调高度相似,用户体验接近专业人类口译。
  • 支持批量和实时部署:推理过程简单,支持批量处理和实时设备端部署,适合大规模应用。

Hibiki的技术原理

  • 多流语言模型架构:
    • 同步处理:同时接收源语音和生成目标语音,基于多流架构联合建模两个音频流。
    • 文本和音频标记:模型预测文本和音频标记的层次结构,实现语音到文本和语音到语音的翻译。
    • 因果音频编解码器:用预训练的因果音频编解码器(如Mimi)将语音编码为低帧率的离散标记,支持实时流式处理。
  • 弱监督学习与上下文对齐:
    • 合成数据生成:基于翻译单语音频的转录文本并重新合成目标语音,生成对齐的合成数据。
    • 上下文对齐:用现成文本翻译系统的困惑度,计算单词级对齐,确保目标语音的生成与源语音的上下文同步。
    • 静音插入与对齐感知TTS:基于插入静音或用对齐感知的TTS模型重新合成目标语音,确保目标语音的延迟符合实时翻译的要求。
  • 说话者相似性与分类器自由引导:
    • 说话者相似性标记:对训练数据进行说话者相似性分类标记,避免过滤数据的同时,在推理时优先选择高相似性样本。
    • 分类器自由引导:调整条件标签的权重,增强模型对说话者相似性的控制,进一步提升语音保真度。
  • 高效的推理过程:
    • 温度采样:用温度采样技术,结合因果音频编解码器,实现流式输入和输出。
    • 批量处理与实时部署:推理过程简单高效,支持批量处理和实时设备端部署,适合大规模应用场景。

Hibiki的项目地址

  • GitHub仓库:https://github.com/kyutai-labs/hibiki
  • HuggingFace模型库:https://huggingface.co/collections/kyutai/hibiki
  • arXiv技术论文:https://arxiv.org/pdf/2502.03382

Hibiki的应用场景

  • 国际会议:实时翻译不同语言的发言,帮助参会者即时理解内容。
  • 在线教育:将教师的授课语音实时翻译,方便学生无障碍学习。
  • 旅游出行:实时翻译导游讲解或与当地人交流,增强旅游体验。
  • 新闻采访:帮助记者快速翻译采访内容,提升报道效率。
  • 客户服务:实现多语言客服沟通,提升客户满意度。
GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
智谱GLM-5.1高速版发布:400 tokens/s刷新全球API速度极限,破解AI效率与智能不可兼得难题
SEMIKONG – 专为半导体领域设计的大型语言模型
MAETok – 港大联合北大等机构推出的自动编码器
YouTube播客AI升级:自动调速专治说话慢,Premium用户收听体验大革新
分享
Email 复制链接 打印
Share
上一篇 node-DeepResearch – Deep Research开源复现版 AI Agent,支持多步推理和复杂查询
下一篇 GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

上海AI Lab开源InternVL-U:4B参数轻量化多模态模型,实现理解-推理-生成-编辑端到端闭环
AI 工具
谢赛宁团队开源Solaris:首个多人视频世界生成模型,突破AI世界模拟新边界
AI 工具 AIGC 资讯
Clawith:企业级开源多智能体协作框架,让AI数字员工深度融入团队协作
AI 工具 AIGC 资讯
大晓机器人Kairos 3.0-4B开源:全球首个端侧具身世界模型,推理速度提升72倍!
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型

站外新闻
AI 工具AIGC 资讯

阿里通义Qwen3.7-Max旗舰大模型发布:全能智能体基座,编程推理全面领先,定义AI Agent新标杆

站外新闻
AI编程 Qwen3.7-Max 大模型 智能体 阿里通义千问
AIGC 资讯

BAGEL – 字节跳动开源的多模态基础模型

站外新闻
流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

AI生成内容反超人类:互联网一半文章已非人造,我们正面临‘精神断粮’危机

站外新闻
AIGC AI生成内容 Slop 大语言模型 认知退化
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI编程工具 AI编程智能体 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenClaw OpenRouter Pika prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 强化学习 形式化验证 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.