Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 优化 Character.AI 的 AI 推理 [译]
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
图 2. 蓝色框表示主存上的缓存张量。绿色和黄色框表示 CUDA 内存上的 KV 缓存。当一个新查询到达时,它会检索最长匹配前缀的 KV 缓存。我们的滚动哈希系统允许检索部分匹配消息的缓存。
Prompt 语宙 > 强化 AI 学习 > 优化 Character.AI 的 AI 推理 [译]
强化 AI 学习

优化 Character.AI 的 AI 推理 [译]

宝玉的分享
最近更新: 2026年5月23日 下午6:21
SHARE

优化 Character.AI 的 AI 推理

优化 Character.AI 的 AI 推理
优化 Character.AI 的 AI 推理

阅读目录
  • 内存高效的架构设计
  • 状态缓存
  • 量化用于训练和服务
  • 共建未来

在 Character.AI,我们正朝着通用人工智能 (AGI) 的目标迈进。在未来,大语言模型 (LLMs) 将会增强我们的日常生活,不仅提高商业生产力和娱乐效果,还能在教育、教练、支持、头脑风暴、创意写作等方面提供帮助。

要在全球实现这一愿景,关键在于实现高效的“推理”,即 LLM 生成回复的过程。作为一家全栈 AI 公司,Character.AI 从头开始设计其模型架构、推理架构和产品,创造了独特的机会来优化推理,使其更高效、更具成本效益,并能扩展以满足快速增长的全球用户需求。

目前,我们每秒处理超过 20,000 次推理查询。为了让大家对这个数字有个具体的概念,这相当于 Google 搜索请求量的 20%,据第三方估计,Google 每秒处理大约 105,000 次查询 (Statista, 2024)。

我们之所以能够在如此规模上稳定地提供 LLM 服务,是因为我们在服务架构中开发了一系列关键创新。在这篇博客文章中,我们将分享过去两年中开发并最近采用的一些技术和优化方法。

内存高效的架构设计

在 LLM 推理中,吞吐量的关键瓶颈是注意力键和值(KV,Key-Value)的缓存大小。它不仅决定了 GPU 上可以处理的最大批量大小,还影响了注意力层的 I/O 成本。我们采用以下技术将 KV 缓存大小减少了超过 20 倍,同时保证了质量不受影响。这些技术使得 GPU 内存不再是处理大批量数据的瓶颈。

1. 多查询注意力 (Multi-Query Attention)。我们在所有注意力层中采用了多查询注意力 (Shazeer, 2019)。相比大多数开源模型中使用的分组查询注意力,这项技术将 KV 缓存大小减少了 8 倍。

2. 混合注意力视界 (Hybrid Attention Horizons)。我们将局部注意力 (Beltagy et al., 2020) 与全局注意力层交替使用。局部注意力通过滑动窗口(sliding windows)技术进行训练,将复杂度从 O(length^2) 降低到 O(length)。我们发现,将大多数注意力层的注意力视界减少到 1024 对评估指标,包括长上下文的 needle-in-haystack 基准测试,影响不大。在我们的生产模型中,每 6 层中仅有 1 层使用全局注意力。

3. 跨层 KV 共享 (Cross Layer KV-sharing)。我们将相邻注意力层的 KV 缓存绑定在一起,这进一步将 KV 缓存大小减少了 2-3 倍。对于全局注意力层,我们将多个全局层的 KV 缓存跨块绑定在一起,因为在长上下文使用情况下,全局注意力层主导了 KV 缓存大小。类似于最近的一篇论文 (Brandon et al., 2024),我们发现跨层共享 KV 不会影响质量。

图 1. 左图显示的是标准的 Transformer 设计,其中每个注意力层都是全局注意力。右图显示的是我们生产模型中的注意力设计。蓝色框表示全局注意力,绿色框表示局部注意力,曲线表示 KV 共享。对于全局注意力层,我们在多个非相邻层之间共享 KV。此图仅描绘了完整模型中的一部分层。
图 1. 左图显示的是标准的 Transformer 设计,其中每个注意力层都是全局注意力。右图显示的是我们生产模型中的注意力设计。蓝色框表示全局注意力,绿色框表示局部注意力,曲线表示 KV 共享。对于全局注意力层,我们在多个非相邻层之间共享 KV。此图仅描绘了完整模型中的一部分层。

状态缓存

我们的一项关键创新是在聊天轮次之间有效缓存注意力键和值(KV,Key-Value)的系统。在 Character.AI 上,大多数聊天是长对话;平均每条消息有 180 条对话历史。随着对话的加长,每次轮次都重新填充 KV 缓存的成本将非常高。

为了解决这个问题,我们开发了一个轮次间缓存系统。对于每个预填充的前缀和生成的消息,我们将 KV 值缓存到主存中,并在将来的查询中检索它们。类似于 RadixAttention (Zheng et al., 2023),我们将缓存的 KV 张量组织在具有树结构的 LRU 缓存中。缓存的 KV 值由前缀 Token 的滚动哈希(rolling hash)索引。对于每个新查询,为上下文的每个前缀计算滚动哈希,并检索最长匹配的缓存。这允许即使是部分匹配的消息也能重用缓存。

在集群级别,我们使用粘性会话将来自同一对话的查询路由到同一服务器。由于我们的 KV 缓存大小很小,每台服务器可以同时缓存数千个对话。我们的系统实现了 95% 的缓存命中率,进一步降低了推理成本。

图 2. 蓝色框表示主存上的缓存张量。绿色和黄色框表示 CUDA 内存上的 KV 缓存。当一个新查询到达时,它会检索最长匹配前缀的 KV 缓存。我们的滚动哈希系统允许检索部分匹配消息的缓存。
图 2. 蓝色框表示主存上的缓存张量。绿色和黄色框表示 CUDA 内存上的 KV 缓存。当一个新查询到达时,它会检索最长匹配前缀的 KV 缓存。我们的滚动哈希系统允许检索部分匹配消息的缓存。

量化用于训练和服务

我们对模型的权重、激活和注意力键和值(KV,Key-Value)缓存使用了 int8 量化(int8 quantization)。为此,我们实现了定制的 int8 内核用于矩阵乘法和注意力。不同于通常采用的“训练后量化(post-training quantization)”技术,我们直接在 int8 精度下训练我们的模型,消除了训练和服务不匹配的风险,同时显著提高了训练效率。量化训练本身是一个复杂的话题,我们将在后续文章中详细讨论。

共建未来

高效推理对于扩展 AI 系统并将其无缝集成到我们的日常生活中至关重要。综上所述,以上讨论的创新实现了前所未有的效率,并将推理成本降低到使大规模服务大语言模型(LLMs)变得更加容易的水平。与我们在 2022 年末刚开始时相比,我们的服务成本减少了 33 倍。今天,如果我们使用领先的商业 API 来服务我们的流量,成本将至少比我们自己的系统高出 13.5 倍。

然而,这仅仅是个开始。在 Character.AI,我们很高兴能继续打造一个由大语言模型(LLMs)驱动创新并提升全球每个人体验的未来。加入我们 (Join us),踏上这段令人兴奋的旅程,继续推动 AI 可能性的极限。一起创造一个高效且可扩展的 AI 系统处于每次互动核心的未来。

ChatGPT 插件:利用图像和跨插件请求伪造技术进行数据泄露 [译]
Meta 如何打造 Threads 的基础设施 [译]
如何使用 ChatGPT Api 和 Node.js 对 Youtube 视频内容进行摘要 [译]
生成式 AI 面临的抄袭问题 —— Midjourney 和 DALL-E 3 的实验揭示了版权方面的难题 [译]
人工智能是伟大的均衡器 [译]
分享
Email 复制链接 打印
Share
上一篇 在对 500 万个自由职业工作的分析后发现这些工作岗位最可能被 AI 替代 [译]
下一篇 人工智能无处不在:改变世界,赋予人类力量 [译]
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

腾讯开源Hunyuan3D-2.1:工业级3D生成模型,支持PBR材质与多模态输入,1秒极速出图
AI 工具 AIGC 资讯
字节跳动MAGREF横空出世:单图+文本一键生成多主体视频,AI视频生成迎来新范式
AI 工具 AIGC 资讯
微软研究院发布Code Researcher:AI Agent深度挖掘代码库与提交历史,自动化修复系统级崩溃
AI 工具 AIGC 资讯
字节跳动Seaweed APT2革新:单GPU 24帧/秒,AAPT技术攻克长视频生成难题,AI视频生成迈入实时交互新纪元
AI 工具 最新趋势

相关推荐

强化 AI 学习

RAG 系统开发中的 12 大痛点及解决方案 [译]

宝玉的分享
强化 AI 学习

大语言模型 API 市场的变迁之路 [译]

宝玉的分享
Google 趋势显示自 ChatGPT 发布以来,“RAG LLM”一词的搜索兴趣截图
强化 AI 学习

2023 年回顾:聚焦 ChatGPT 时代之后的发展及 2024 年展望 [译]

宝玉的分享
强化 AI 学习

给年轻人的忠告,我对自己的自欺 [译]

宝玉的分享
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.