RAG 与 GPT-4 的上下文窗口比较：准确性、成本和响应速度 [译]

摘要：(RAG + GPT-4) 提供卓越性能，成本仅为 4%。

阅读目录

引言

在大语言模型应用阶段，重点是让回答变得非常具体，无论是针对数据集、用户、使用场景，还是特定的调用请求。

通常，这通过以下三种主要技术之一实现：

与常见的误解不同，实际上在定制 LLM 的回答时，主要使用的是上下文填充和RAG，而不是微调。（微调在其他方面有其独特且重要的作用 – 我将在下一篇文章中详细讨论）。

最近，我为 CopilotKit 添加了一个新的面向文档的反应钩子，专门用于处理（可能是长篇的）文档。

在选择合理的默认设置时（受到 Greg Kamradt) 的启发），我对RAG和GPT-4-Turbo的上下文窗口进行了一场“海底捞针”式的压力测试，关注三个关键指标： （1）准确性，(2) 成本，和 (3) 响应速度。

我对两种不同的 RAG 管道进行了基准测试：

先来看结果：

摘要： 现代 RAG 表现出色。根据您的使用场景，您可能永远不需要把上下文窗口填得满满的（至少在处理文本时）。

如上图所示，助理 API（结合了 GPT-4 和 RAG 技术）的表现极为出色，几乎可以说是完美的。

需要注意的是，这种高水平的表现仅限于搜索类型的查询。 在处理涉及较大上下文范围的其他场景时（比如少样本学习），情况可能会有所不同。

在 AI 技术中，使用上下文窗口填充技术仅会造成每个 Token（数据单位）的成本增加。相比之下，RAG 技术不仅增加每个 Token 的成本，还额外增加了一种固定的大语言模型 (LLM) 推理成本。

这里有一个 每个 Token 成本的概览：

值得注意的是，这些成本在 四个数量级上有显著差异（使用对数尺度测量）。 (详见分析部分的图表和计算)。

*注：OpenAI 计划在 2024 年 1 月中旬之前不对数据检索收费。这可能是一次沟通上的失误，未来可能会有所更正（例如，他们可能未提到他们将另行收取数据嵌入成本）。另一种可能性是，他们正在使用一种还未公布的新型数据嵌入模型。

—

然而，值得再次强调的是，RAG 技术同样带来了大致固定的大语言模型智能体循环成本。

以 128k 上下文窗口为例，平均总成本大约是 每 1000 Token $0.0004，大约占 GPT-4-Turbo 成本的 4%。

而 LlamaIndex 的成本稍低，每 1000 Token 为 $0.00028，原因是它采用了相对简单的智能体循环机制。

通常情况下，对离线数据进行的 RAG 操作的检索延迟是以毫秒计算的，而整个过程的延迟则主要取决于大语言模型（LLM）的调用时间。

但对比一下从上传文档到获得结果的整个过程的延迟会很有意思， 特别是为了了解 RAG 在面对“在线”数据时是否能与之竞争（相对于离线数据）。简单来说，答案是肯定的！

以下是对 128k token 文档 进行查询时的整体延迟情况：

另外，大部分应用都可以通过 乐观上传文档 的方式来减少用户感知的延迟。由于 RAG 索引的成本非常低，这样做几乎没有什么损失。

我在 Greg Kamradt 的杰出研究基础上进一步发展了我的工作。Greg 最近发布了关于 GPT-4-Turbo 和 Claude 2.1 在“大海捞针”测试中的表现。

我们的方法很简单，就像在“大海”里隐藏一根“针”，然后探询这根“针”的位置。我把“针”放在“大海”中的不同位置，从起点到终点，每隔约 10% 改变一次。

在上下文窗口填充的实验中，我直接将这个“大海”放进了大语言模型的上下文窗口里。在 RAG 实验中，我创建了一个文档，并在这个文档上使用了 RAG。

（如同 Greg 精彩的分析所述，这个“大海”是由 Paul Graham 的文章组成的，而“针”则是一个与之无关的小知识。）