RAPTOR：树状组织的递归抽象检索技术 [译]

通过检索增强的语言模型，我们能更灵活地跟上世界的变化，并融入更广泛的知识。但现有的大多数方法只能从资料库中取得短小连贯的文本片段，这限制了对文档整体情境的深入了解。我们提出了一个创新的做法：通过递归地嵌入、分类和概括文本块，我们从底层向上构建了一个分层总结的树状结构。在进行推理时，RAPTOR 模型能够从这棵树中检索信息，使我们能够在不同层次上整合长篇文档的信息。通过控制实验，我们发现，相比传统的检索增强语言模型，在多个任务上采用递归概括检索的方法显著提高了性能。特别是在需要复杂多步推理的问答任务上，我们的方法取得了前所未有的效果。举个例子，结合 RAPTOR 的检索能力和 GPT-4 的强大计算，我们在 QuALITY 问答基准测试上实现了 20% 的准确率提升。

1 引言

大型语言模型（LLMs）已经成为推动技术变革的重要工具，它们在众多领域中展现出了非凡的能力。随着这些模型规模的扩大，它们已经能够独立充当高效的知识库，模型内部的参数包含了大量事实信息（参见 Petroni 等人，2019 年；Jiang 等人，2020 年；Talmor 等人，2020 年；Rae 等人，2021 年；Hoffmann 等人，2022 年；Chowdhery 等人，2022 年；Bubeck 等人，2023 年；Kandpal 等人，2023 年）。此外，对这些模型进行下游任务的微调可以进一步提升其性能（参见 Roberts 等人，2020 年）。然而，即便是规模庞大的模型，也难以包含特定任务所需的全部领域特定知识，加之世界的不断变化，会使得模型中的知识迅速过时。要通过额外的微调或修改来更新这些模型中的知识是一项挑战，尤其是在处理庞大的文本语料库时（参见 Lewis 等人，2020 年；Mitchell 等人，2022 年）。一种创新的解决方案是，在开放域问答系统中首次尝试，通过将大量文本切分成小块（段落）后索引到一个独立的信息检索系统中。这样，当与问题一同提供给 LLM 时，检索到的信息可以作为上下文（称为“检索增强”，参见 Lewis 等人，2020 年；Izacard 等人，2022 年；Min 等人，2023 年；Ram 等人，2023 年），便于系统获取某一领域的最新知识，同时也使得解释性和来源追踪变得简单。与此同时，LLMs 内部的参数化知识却是不透明的，追溯其源头相当困难（参见 Akyurek 等人，2022 年）。

图 1: 本图为示例，展示了信息检索系统如何辅助大型语言模型以增强其处理问题的能力。

图 1: 构建知识树的过程：RAPTOR 通过分析文本块的深层含义，将它们归为一类，并为每一类生成简要概述，由此自下而上地构建出一棵知识树。归为一类的信息点成为兄弟节点；而每个父节点则包含了这一类信息的总结。

尽管检索增强技术有所进步，但依然存在不足之处。我们关注的问题是，现有技术往往只能检索到一些短小并且相连的文本片段，这大大限制了它们在表达和利用复杂文章结构上的能力。这在需要综合文章多个部分信息的情境下尤为明显，比如要完整理解一本书的内容，正如 NarrativeQA 数据集（Kočiskỳ 等人，2018）中的情况。以“灰姑娘”的故事为例，对于“灰姑娘是如何获得幸福结局的？”这样的问题，仅靠检索到的少量连续文本片段是无法提供足够上下文的。

为此，我们开发了一种新的索引和检索系统，它通过树状结构来详细捕捉文本的各个层面信息。正如图 1 所展示的，我们的系统 RAPTOR 能够对文本块进行分类并总结，然后重复这个过程，从而自下而上地构建出一个信息树。这样的结构让 RAPTOR 能够在不同层面上理解和回答问题，有效提升了处理复杂询问的能力。

我们的主要创新在于采用文本摘要技术，以不同的维度丰富检索系统的信息内容，并通过在大型文档集合上的实验验证了其有效性。我们与三种语言模型（UnifiedQA（Khashabi 等人，2020）、GPT-3（Brown 等人，2020）以及 GPT-4（OpenAI，2023））进行的对比实验表明，RAPTOR 在现有的检索增强技术上取得了明显的进步。更重要的是，RAPTOR 结合 GPT-4 的应用，在某些情况下甚至结合 UnifiedQA，已经在三个问答（QA）任务上创造了新的最高纪录，这包括对书籍和电影的自由文本回答（NarrativeQA，Kočiskỳ 等人，2018）、全文 NLP 论文（QASPER，Dasigi 等人，2021）以及基于中等篇幅文章的多项选择题（QuALITY，Pang 等人，2022）。

2 相关研究

检索的必要性是什么？

随着近期硬件和算法的飞速进步，模型处理的文本长度已大幅增加，这让人们开始质疑是否还需要检索系统（Dai et al., 2019; Dao et al., 2022; Liu et al., 2023）。但是，正如 Liu et al.（2023）和 Sun et al.（2021）研究指出的，模型在处理长文本时往往无法充分利用所有信息，尤其是当关键信息隐藏在冗长的文本中时，模型的效能会明显降低。此外，从实际角度来看，处理长文本不仅成本高，而且速度慢。这说明，在处理需要大量知识的任务时，挑选出最关键的信息仍然是非常关键的。

检索技术进展

在检索增强型语言模型（RALMs）的发展过程中，我们见证了检索器、阅读器以及端到端系统训练等多个环节的显著改善。检索技术从最初的基于术语的传统方法，如 TF-IDF（Spärck Jones, 1972）和 BM25（Robertson et al., 1995; Roberts et al., 2020），演进至今日的基于深度学习的策略（Karpukhin et al., 2020; Khattab & Zaharia, 2020; Sachan et al., 2023）。近期的研究提出，鉴于大语言模型在记忆大量知识方面的能力，可以将其作为检索工具（Yu et al., 2022; Sun et al., 2022）。在阅读器部分的研究中，Fusion-in-Decoder（FiD，Izacard & Grave, 2022）采用 DPR 和 BM25 进行信息检索，并在编码器中单独处理文段。同时，RETRO（Borgeaud et al., 2022; Wang et al., 2023）通过使用交叉分块注意力机制和按块检索，生成基于检索内容的文本。

在端到端系统训练方面，Atlas（Izacard et al., 2022）通过结合检索器，对编解码器模型进行了微调；REALM（Guu et al., 2020）是一个为开放领域问答任务优化的双向遮蔽语言模型；RAG（检索增强生成，Lewis et al., 2020）则将预训练的序列到序列模型与神经检索器结合起来。Min et al.（2021）引入的 Joint Passage Retrieval（JPR）模型利用树解码算法来处理在检索多个答案时的文段多样性和相关性问题。Dense Hierarchical Retrieval（DHR）和 Hybrid Hierarchical Retrieval（HHR）通过结合文档级和段落级检索，以及融合稀疏与密集检索方法，分别在检索准确性上取得了进步（Liu et al., 2021; Arivazhagan et al., 2023）。

虽然检索技术的方法各不相同，但大多数模型在检索信息时还是采用了一种标准做法：将文本资料分成小块并用基于 BERT 的技术进行解析。Nair 等人在 2023 年的研究中指出，这种连续切分的方式可能没法充分理解文本的深层含义。特别是在阅读从技术或科学文档中提取的短文时，缺失的背景信息可能会让阅读变得困难，甚至产生误导（参见 Cohan 和 Goharian, 2017；Newman 等人，2023；Zhang 等人，2023）。

以递归概括为上下文

文档的概括技术能够提供一种精简的视角，帮助我们更专注地理解内容（Angelidis 与 Lapata, 2018）。Gao 等人在 2023 年的研究中开发的概括/摘录模型，通过对文段的概括和摘录，大多数情况下能够提高信息的准确度，尽管有时候这种方式可能会丢失一些细节。Wu 等人于 2021 年提出的递归抽象概括模型，通过对小段文本的概括并将它们整合起来，来概括更大部分的文本，这种方法虽然能够覆盖更广泛的主题，但可能会遗漏一些细节。Liu 在 2022 年提出的 LlamaIndex 通过概括相邻的文本块并保留中间过程，尝试保留不同层次的细节，从而避免了丢失重要细节的问题。然而，这两种方法都可能忽略文本中远处内容之间的联系，这正是我们通过 RAPTOR 技术能够识别并关联起来的。

3 方法

RAPTOR 概览

RAPTOR 借鉴了一个观点：长篇文本通常会展示出子话题和层次结构（Cao & Wang, 2022; Dong et al., 2023b）。它通过建立一个递归式的树状结构来应对阅读时遇到的语义深度和联系问题，这种结构不仅平衡了宽泛主题的理解和细节的深入，还能根据语义相似度（而不仅是文本顺序）来对节点进行分组。

RAPTOR 树的建立首先是将检索的文本分割成长度为 100 个字符的短文本段，这与传统的检索增强技术类似。如果一个句子超出了 100 字符限制，我们会将它完整地移至下一段，避免句子被中断。这样做是为了保证每个文本段内的语境和语义的连贯性。随后，这些文本段通过 SBERT（基于 BERT 的编码器，multi-qa-mpnet-base-cos-v1）进行嵌入处理（Reimers & Gurevych, 2019）。这些文本段及其相应的 SBERT 嵌入成为了我们树状结构的叶子节点。

为了将相似的文本段进行分组，我们使用了聚类算法。分组后，利用语言模型对这些文本进行概括总结。然后，这些总结过的文本会被重新嵌入，经过嵌入、聚类、总结的循环，直至无法进一步聚类，最终形成了一种结构化的、多层次的树状表示，详细呈现了原始文档的内容。RAPTOR 的一个显著特点是其计算效率高，无论是构建时间还是令牌消耗，都是线性增长，这使得它能够有效处理大规模和复杂的文本集合。关于 RAPTOR 扩展性的更多讨论，请参阅附录 A。

在这棵树中进行查询时，我们提出了两种策略：树遍历和折叠树。树遍历策略按层遍历树，每一层都进行剪枝和选择最相关的节点。而折叠树策略则是跨所有层次综合评估节点，以寻找最相关的节点。

聚类算法

聚类是构建 RAPTOR 树的关键一步，它将文本段落有效地归纳为有着共同特征的组。通过这个过程，相关联的内容被组织在一起，从而简化了之后的查找工作。

我们采用的一种特殊聚类技术是“软聚类”，这意味着一个节点可以同时属于多个不同的组，而不是仅限于一个固定的群体。这种方法的灵活性对于处理包含多种主题信息的文本段落来说至关重要，因为这些段落往往需要在多个摘要中被提及。

我们的聚类算法基于高斯混合模型（GMMs），这是一种能够提供灵活处理和基于概率的框架的方法。简单来说，GMMs 认为，数据点是由几种不同的高斯（即正态）分布混合而成的。

考虑到有 $N$ 个文本段落，每个都可以用一个 $d$ 维的密集向量来表示，文本向量 $x$ 属于某个特定高斯分布的概率可以用数学公式来描述。整体上，文本向量的分布是通过多个高斯分布的加权组合来计算的，每个分布都有其对应的权重。

面对向量嵌入的高维度问题，我们采用了一种名为 UMAP 的降维技术来帮助处理。这种方法通过调整参数来平衡保留数据的局部和全局特性，从而使我们能够先识别出大范围的主题群组，再在这些群组内部进行更细致的聚类，捕捉文本数据中从广泛的主题到具体细节的各种关系。

如果某个小群组的内容总和超过了摘要模型处理的最大范围，我们的算法会在这个群组内部再次进行聚类，以确保内容的总量不会超标。

为了找出最合适的群组数量，我们使用了一种叫做贝叶斯信息准则（BIC）的方法来选择最佳模型。这个方法既考虑了模型的复杂度，也考量了模型的拟合效果（Schwarz, 1978）。简单来说，给定的 GMM 的 BIC 计算公式是 $B I C = ln (N) k - 2 ln (L)$ ，这里面 $N$ 代表文本段（或数据点）的数目， $k$ 代表模型参数的数目，而 $L$ 是该模型可能性函数的最大值。在 GMM 的情况下，参数 $k$ 的数目取决于输入数据的维度以及群组的数目。

确定了最佳的群组数目后，我们接下来利用期望最大化算法来估计 GMM 的各项参数，包括平均值、方差以及混合权重。

尽管在处理文本数据时，GMM 假设的高斯分布可能不完全适用——文本数据往往分布不均，偏斜且稀疏——但根据我们的实际测试，这种方法对于我们的需求来说是有效的。我们还进行了一项对比实验，将 GMM 聚类和连续文本块的总结能力进行了比较，并在附录 B 中详细介绍了实验过程和结果。

基于模型的概述制作

利用高斯混合模型（Gaussian Mixture Models）对节点进行分类后，每个分类中的节点都将提交给语言模型进行概述。这一步骤使得模型能够把大段文本转化为精炼且条理清晰的选定节点概要。在我们的实验中，我们采用了 gpt-3.5-turbo 生成这些概要。概述步骤有效地将庞大的信息量压缩成了容易管理的规模。我们在附录 C 中提供了因概述而实现的信息压缩统计数据，并在附录 D 中提供了进行概述所用的提示。

尽管概述模型通常能生成可信赖的概要，但我们通过专门的标注研究发现，约 4% 的概要包含了轻微的错误想象（hallucinations）。这些错误并未传递至上级节点，在问答任务中也未造成明显的影响。关于错误想象的深入分析，请参见附录 E。

图 2：树遍历及树结构简化检索机制示意图。树遍历从根节点开始，根据与查询向量的余弦相似度，检索最顶层的 $k$ 个（此处为顶层的 $1$ 个）节点。在每一层，它会从上一层最顶端的 $k$ 个子节点中，根据与查询向量的余弦相似度检索出顶层的 $k$ 个节点。树结构简化则是将树结构压缩为单一层面，并基于与查询向量的余弦相似度，继续检索节点，直至达到预定的令牌数量阈值。在两种示意图中，执行余弦相似度搜索的节点均被高亮显示。

查询方法详解

在这一部分，我们将深入探讨 RAPTOR 系统采用的两种核心查询技术：树遍历技术和折叠树技术。这两种技术为我们提供了不同的方法来浏览 RAPTOR 的复杂层次结构，从而找到我们需要的信息。每种方法都有其独到之处以及需要权衡的地方。详细的算法伪代码已经收录在附录 F 中，需要注意的是，这里所有的节点都采用了 SBERT 技术进行了嵌入处理。

树遍历技术的运作方式是这样的：它首先根据查询内容与节点内容的相似度（通过余弦相似度计算），选出最相关的顶层几个根节点。然后，再从这些节点的子节点中，选出相似度最高的几个，如此反复，直至到达末端的叶节点。最终，将所有选中节点的文本拼接起来，就形成了我们所需要的信息。具体的步骤如下：

从 RAPTOR 树的最顶层开始，计算出查询内容与该层每个节点内容的相似度。
选出相似度最高的前几个节点，记为一个集合。
对这个集合中每个节点的子节点，重复进行相似度计算。
同样，再选出相似度最高的前几个子节点，形成新的集合。
如此递归下去，直到达到设定的层数或是叶节点。
将这些集合中的内容合并起来，就构成了最终的查询结果。

通过调节我们遍历的深度和每层选取的节点数量，我们可以在检索的广度和深度之间做出选择。这个方法从宏观上快速定位信息范围，然后逐步深入细节。

而折叠树方法则提供了一种更为直观的检索方式。不同于逐层深入，折叠树技术将整个树视为同一层，简化了信息搜索过程。具体如图 2 所展示的，所有节点都被平等对待，以便于我们从全局的角度进行信息检索。该方法的步骤简述如下：

首先，我们把 RAPTOR 树的所有层合并为一个层级，形成了一个新的节点集合，称为 $C$ 。这个集合包括了原始树中各层的节点。

接着，我们计算查询请求的嵌入向量与集合 $C$ 中所有节点的嵌入向量之间的余弦相似度。

最终，我们挑选出与查询请求余弦相似度得分最高的前 $k$ 个节点，不断添加节点到结果集中，直到达到了一个预设的最大令牌数，以此确保不超过模型处理的上限。

我们在 QASPER 数据集上的 20 个故事中测试了这两种方法。如图 3 所示，无论是采用不同的前 k 个节点选择，还是不同的最大令牌数限制，折叠树方法的表现都更加出色。我们认为，相比于逐层遍历，折叠树方法之所以更优，是因为它能够同时考虑所有层级的节点，从而为特定问题找到恰到好处的信息层级。而传统的逐层遍历方法，无论问题如何，各层节点的比例是固定的，导致无论面对何种问题，高层次的主题信息与细节信息的比例总是一样的。

不过，折叠树方法也有其不足之处，即需要对树中的所有节点进行余弦相似度搜索。但是，借助如 FAISS 这样的快速 $k$ -最近邻搜索库，这一过程可以大幅提速（Johnson 等人，2019 年）。

图 3：查询方法比较。在 QASPER 数据集的 20 个故事上，对比了采用不同顶 k 值的树遍历方法和不同上下文长度的折叠树方法的效果。采用 2000 个令牌的折叠树方法取得了最佳效果，因此我们决定采用这种策略进行主要的查询。

综上所述，鉴于折叠树方法更灵活，且在 QASPER 数据集的一个子集上表现更佳，我们决定采用这种查询策略。具体来说，我们采用的是最大 2000 个令牌的折叠树方法，这大约相当于检索前 20 个节点。通过基于令牌的方法，我们确保了上下文长度不会超过模型的处理限制。在进行 UnifiedQA 模型实验时，我们提供了 400 个令牌的上下文，因为 UnifiedQA 模型的最大上下文长度为 512 个令牌。我们为 RAPTOR 以及其他基准模型提供了同样数量的上下文令牌。

定性研究分析

我们进行了一项研究，旨在探索 RAPTOR 在检索信息方面相较于传统的密集通道检索（DPR）技术有何优势。研究聚焦于围绕一篇 1500 字的《灰姑娘》故事所提出的复杂和层次丰富的问题。如图 4 所揭示的，RAPTOR 利用其树状检索结构，在多个层次中选择信息节点，以精准匹配问题的具体需求。这种方法往往能够为解决问题提供更为相关和全面的信息，相比之下，传统的 DPR 技术则显得不够精确。更多的详细讨论和例证，包括 RAPTOR 和 DPR 对特定问题检索到的文本对比，详见附录 G。

实验探索

数据集介绍

我们评估了 RAPTOR 在三个问答数据集上的表现：NarrativeQA、QASPER 和 QuALITY。

NarrativeQA 数据集收录了基于书籍全文和电影剧本的问答对，共涵盖 1,572 份文档（Kočiskỳ等人，2018 年；Wu 等人，2021 年）。这个数据集的 NarrativeQA-故事任务挑战模型全面理解整个故事内容的能力，以准确作答，测试了模型对文学领域较长文本的理解能力。我们采用标准的 BLEU（B-1, B-4）、ROUGE（R-L）和 METEOR（M）指标来评估模型在此数据集上的性能。更多关于我们实验中使用的 NarrativeQA 评价脚本的细节，请参阅附录 H。

QASPER 数据集涵盖了 1,585 篇 NLP 论文中的 5,049 个问题，旨在探究全文中的具体信息（Dasigi 等人，2021 年）。QASPER 数据集中的答案类型分为可回答/不可回答、是/否、抽象和提取四种。我们使用标准 F1 分数来衡量答案的准确性。

QuALITY 数据集包含多项选择题，每个题目都附有平均长度约 5,000 标记的上下文段落（Pang 等人，2022 年）。该数据集要求对整篇文档进行推理，完成问答任务，从而检验我们的检索系统对中等长度文档的处理能力。这个数据集还包括一个挑战性子集 QuALITY-HARD，该子集包含了在快速设置下，大多数人类标注者回答错误的问题。我们将报告整个测试集以及 HARD 子集的准确率。

图 4: 查询示例：展示了 RAPTOR 如何为“灰姑娘故事的中心主题是什么？”和“灰姑娘如何获得幸福结局？”这两个问题检索信息。高亮显示的节点表示 RAPTOR 选取的信息，箭头则指向 DPR 的叶节点。值得一提的是，RAPTOR 检索到的上下文通常涵盖了 DPR 直接或通过更高层摘要获取的信息。

控制性基线对比

首先，我们以 UnifiedQA 3B 作为解析器，分别搭配 SBERT（Reimers & Gurevych, 2019）、BM25（Robertson et al., 1995; 2009）和 DPR（Karpukhin et al., 2020）作为嵌入模型，并在 QASPER、NarrativeQA 和 QuALITY 三个数据集上，对比了使用与未使用 RAPTOR 树状结构的效果。正如表 1 和 2 所展示的，RAPTOR 结合任何检索工具的情况下，都能显著提升在各个数据集上的表现。

鉴于 RAPTOR 与 SBERT 结合后展现出最优性能，我们在随后的实验中全面采用此组合。接下来，我们比较了在使用 GPT-3、GPT-4 和 UnifiedQA 三种不同大语言模型（LLM）情境下，RAPTOR 与 BM25 及 DPR 的性能。结果如表 3 所示，无论配合哪种语言模型，RAPTOR 在 QASPER 数据集上的表现都一致超越 BM25 和 DPR。具体来说，使用 GPT-3、GPT-4 和 UnifiedQA 时，RAPTOR 的 F-1 匹配得分分别为 53.1%、55.7% 和 36.6%，这一成绩分别比 DPR 高出 1.8、2.7 和 4.5 个百分点，同时也超过 BM25 6.5、5.5 和 10.2 个百分点。考虑到 QASPER 需要从 NLP 论文中合成信息，RAPTOR 能够提供更高层次的摘要信息，从而胜过仅能抽取一些最相似但可能无法独立提供正确答案的文本块的方法，这一结果并不意外。

表 1: NarrativeQA 数据集上使用与不使用 RAPTOR 的性能对比：在使用 UnifiedQA-3B 作为语言模型的情况下，对比了不同检索方法（SBERT、BM25、DPR）使用与不使用 RAPTOR 的性能，结果显示 RAPTOR 在各自的检索方法上都实现了性能提升。

模型	ROUGE	BLEU-1	BLEU-4	METEOR
SBERT 启用 RAPTOR	30.87%	23.50%	6.42%	19.20%
SBERT 未启用 RAPTOR	29.26%	22.56%	5.95%	18.15%
BM25 启用 RAPTOR	27.93%	21.17%	5.70%	17.03%
BM25 未启用 RAPTOR	23.52%	17.73%	4.65%	13.98%
DPR 启用 RAPTOR	30.94%	23.51%	6.45%	19.05%
DPR 未启用 RAPTOR	29.56%	22.84%	6.12%	18.44%

在 QuALITY 数据集的研究中（参见表 [5]），RAPTOR 的引入将准确率提高至 62.4%，相比于 DPR 和 BM25 分别提升了 2% 和 5.1%。同样，当引入 UnifiedQA 作为语言模型时，RAPTOR 分别在 DPR 和 BM25 基准上实现了 2.7% 和 6.7% 的性能提升。

而在 NarrativeQA 数据集的分析里（见表 [6]），RAPTOR 在多个重要评测指标上都取得显著优势。在 ROUGE-L 指标上，它领先 BM25 和 DPR 分别达到 7.3 和 2.7 分。在 BLEU-1、BLEU-4 和 METEOR 等其他关键指标上，RAPTOR 也分别实现了对 BM25 和 DPR 1.7 至 5.8 分以及 0.7 至 2.1 分的明显领先。

表 2: 在 QuALITY 和 QASPER 数据集中使用与不使用 RAPTOR 的性能比较：该表展示了在 QuALITY 和 QASPER 数据集中，不同检索方法（SBERT、BM25、DPR）启用和未启用 RAPTOR 时的性能对比。在这里，UnifiedQA-3B 被采用作为背后的大语言模型。无论是在哪个数据集，RAPTOR 的加入都显著优于每种方法的基准性能。

模型	准确率 (QuALITY)	答案质量 F1 (QASPER)
SBERT 结合 RAPTOR	56.6%	36.70%
SBERT 未结合 RAPTOR	54.9%	36.23%
BM25 结合 RAPTOR	52.1%	27.00%
BM25 未结合 RAPTOR	49.9%	26.47%
DPR 结合 RAPTOR	54.7%	32.23%
DPR 未结合 RAPTOR	53.1%	31.70%

表 3: 在 QASPER 数据集上基于不同语言模型（GPT-3、GPT-4、UnifiedQA 3B）及多种检索方法的 F-1 分数对比分析。仅当分析基于论文标题和摘要时，“标题 + 摘要”栏展示了相应的表现。RAPTOR 在所有参与测试的语言模型中均显著优于传统基准线 BM25 和 DPR。特别地，RAPTOR 的 F-1 分数至少超出 DPR 1.8 个百分点，超出 BM25 5.3 个百分点。

检索方法	GPT-3 F-1 匹配值	GPT-4 F-1 匹配值	UnifiedQA F-1 匹配值
标题 + 摘要	25.2	22.2	17.5
BM25	46.6	50.2	26.4
DPR	51.3	53.0	32.1
RAPTOR	53.1	55.7	36.6

表 4: 在 QuALITY 开发数据集上，针对两种不同的语言模型（GPT-3、UnifiedQA 3B）使用不同检索方法的准确性对比。RAPTOR 在准确度上至少领先传统方法 BM25 和 DPR 2.0%。

表 5: 在 QASPER 数据集上，各模型 F-1 匹配得分的对比结果。

模型	GPT-3 准确率	UnifiedQA 准确率
BM25	57.3	49.9
DPR	60.4	53.9
RAPTOR	62.4	56.6

模型	F-1 匹配得分
LongT5 XL（Guo et al., 2022）	53.1
CoLT5 XL（Ainslie et al., 2023）	53.9
RAPTOR + GPT-4	55.7

表 5：QASPER 数据集上，不同模型在 F-1 匹配得分方面的表现结果。

与顶尖系统的性能比较

在我们的对照比较基础上，我们探讨了 RAPTOR 在面对其他顶尖模型时的表现。正如表 5 所示，RAPTOR 结合了 GPT-4 技术，在 QASPER 数据集上取得了 55.7% 的 F-1 得分，超过了 CoLT5 XL 的 53.9% 得分，树立了新的标杆。

在 QuALITY 数据集上，如表 7 显示，RAPTOR 与 GPT-4 的结合再次刷新了记录，以 82.6% 的准确率超越了之前的最高成绩 62.3%。值得一提的是，它在处理 QuALITY-HARD 上表现尤为出色，比 CoLISA 高出 21.5%。QuALITY-HARD 包含了那些对人类来说特别棘手的问题，这些问题往往需要反复阅读文本、进行复杂的推理，或二者兼而有之。

对于 NarrativeQA 数据集，如表 6 所呈现，RAPTOR 与 UnifiedQA 的结合设立了新的 METEOR 评分标准。相比于 Wu 等人在 2021 年使用 UnifiedQA 开发的递归摘要模型，RAPTOR 在所有评价指标上都展现了更优的性能。不同于 Wu 等人依赖于树状结构顶层节点的总结，RAPTOR 通过其中间层和聚类方法获益，能够捕捉从宏观主题到微观细节的广泛信息，这大大增强了其整体性能。

表 6: 在 NarrativeQA 数据集中，RAPTOR 与多个模型的性能进行比较，关注四个主要评价指标：ROUGE-L, BLEU-1, BLEU-4, 和 METEOR。RAPTOR 结合了 UnifiedQA 3B 技术，不仅在 METEOR 指标上超越了 BM25 和 DPR 等检索方法，还创下了新的最高记录。

模型	ROUGE-L	BLEU-1	BLEU-4	METEOR
BiDAF (Kočiský et al., 2018)	6.2	5.7	0.3	3.7
BM25 加上 BERT (Mou et al., 2020)	15.5	14.5	1.4	5.0
书籍递归总结技术 (Wu et al., 2021)	21.6	22.3	4.2	10.6
检索器加阅读器方法 (Izacard & Grave, 2022)	32.0	35.3	7.5	11.1
RAPTOR 结合 UnifiedQA	30.8	23.5	6.4	19.1

表 7: 在 QuALITY 数据集的全面测试集及其挑战性更高的难度分支上，各模型的准确性表现。GPT-4 搭配 RAPTOR 创下了新的行业标杆。

模型	准确率
测试集	难度分支
Longformer-base (Beltagy et al., 2020)	39.5	35.3
DPR 与 DeBERTaV3-large (Pang et al., 2022)	55.4	46.1
CoLISA (基于 DeBERTaV3-large) (Dong et al., 2023a)	62.3	54.7
RAPTOR 搭配 GPT-4	82.6	76.2

4.1 树状结构的独特价值

表 8：RAPTOR 在 QuALITY 数据集的故事 1 中查询不同树层时的表现。列显示从哪一层开始查询，行显示查询了多少层。

查询层数 / 起始层	叶节点层 (层 0)	第 1 层	第 2 层
1 层	57.9	57.8	57.9
2 层	–	52.6	63.15
3 层	–	–	73.68

我们探讨了 RAPTOR 中不同层次的节点对其检索功能的影响。我们认为，树结构的上层节点在处理需要深层次理解文本的主题查询或多步骤查询时，扮演着关键角色。

这一假设经过了量化和质化的双重验证。质化分析详见附录 G。为了量化评估上层节点的作用，我们选取了 QuALITY 数据集中的故事进行分析。正如第 3 节所述，我们为这些故事构建了 RAPTOR 树。但在检索时，我们尝试了不同层次的组合搜索。例如，我们既单独从叶节点搜索，也尝试了包括上层节点在内的连续层次组合。表 8 中的数据显示，采用全树搜索策略，即利用所有层次进行搜索，比仅关注某些特定层次的策略更有效。

这一结果强调了 RAPTOR 完整树状结构的重要性。通过结合原始文本和高层次摘要进行检索，RAPTOR 能够有效应对从复杂的主题查询到注重细节的问题。更多故事的详细结果和对各层影响的进一步研究，可在附录 I 中找到。

5 结论

本文介绍了 RAPTOR，这是一种创新的基于树状结构的检索系统。它通过不同层次的上下文信息增强了大语言模型的知识库。RAPTOR 利用递归聚类和摘要技术，建立了一个层次化的树状结构，这个结构能够整合检索语料库中各个部分的信息。在查询阶段，RAPTOR 依赖这种树状结构实现了更有效的检索。我们的实验结果显示，RAPTOR 不仅优于传统的检索方法，在多个问答任务上还创下了新的性能标准。

6 可重复性声明

为了确保我们的研究成果可以被其他研究者验证和复现，我们提供了详细的实验设置和数据处理方法。这些信息旨在帮助感兴趣的研究者理解我们的方法论，并在必要时重复我们的实验。具体细节请参见本文的方法论部分和附录材料。

问答与总结任务的语言模型应用

在我们的 RAPTOR 实验中，引入了四种语言模型来应对不同的挑战：用于问答任务的 GPT-3 和 GPT-4，以及专注于总结的 GPT-3.5-turbo。这些模型，包括 gpt-3、gpt-4 以及 gpt-3.5-turbo，都可以通过 OpenAI API 进行调用。此外，专门用于问答的 UnifiedQA 模型，则可以在 Hugging Face 上免费获取。

实验使用的评估数据集

本次实验采用了三个公开的评估数据集：QuALITY、QASPER 和 NarrativeQA。这些数据集的公开性保证了本研究的检索和问答测试可以被其他研究者复现。

源代码信息

RAPTOR 项目的源代码将向公众开放，详见这里。

附录 A：RAPTOR 树建构过程的可扩展性与计算效率评估

我们在一台配置了 16GB RAM 的 Apple M1 Mac 笔记本电脑上，对 RAPTOR 树构建过程的计算效率和成本效益进行了评估。这项评估旨在展现 RAPTOR 在常规硬件上的可扩展性和实用性。实验中，我们调整了上下文长度范围从 12,500 至 78,000 tokens，并记录了完成整个树构建过程所需的 token 数量及时间——从初始分割嵌入到最终根节点的构建。

关于 QASPER、NarrativeQA 和 QuALITY 数据集，文档长度与 Token 消耗成本关系图

图 5: 文档长度对于 QASPER、NarrativeQA 和 QuALITY 数据集的 Token 消耗成本。RAPTOR 构建树的成本随着文档长度的增加而线性增长。

代币开销

我们对初始文档长度与树构建过程中总消耗的 Token 数（包括提示 Token 和完成 Token）之间的关系进行了实证研究。在我们考察的三个数据集 QuALITY、QASPER 和 NarrativeQA 中，文档长度存在显著差异。图 5 清楚地显示了初始文档长度与 Token 总消耗之间的直线相关性，强调 RAPTOR 无论面对何种文档复杂度或长度，都能保持 Token 数量的线性增长。

图 6: 文档长度对构建时间的影响，适用于最多 80,000 个 Token 的文档。RAPTOR 的树构建时间随着各数据集的文档长度线性增长。

构建耗时

我们还观察到文档长度与构建时间之间存在一致的线性趋势，如图 6 所示。这表明 RAPTOR 在时间上的扩展性良好，能够高效处理不同长度的大型文本集合。

结论

总体而言，我们的实证研究结果表明，RAPTOR 在 Token 消耗和构建时间方面均具有良好的扩展性。随着输入文本的复杂度和量级的增加，构建树的成本以可预测和线性的方式增长。这证明了 RAPTOR 在处理大型和多样化文本集合方面的计算效率。

附录 B：对 RAPTOR 聚类机制的剥离研究

为了评估 RAPTOR 方法中聚类机制的有效性，我们对 QuALITY 数据集进行了一项剥离研究。该研究比较了 RAPTOR 在采用平衡树式编码与连续文块摘要方面的性能，与我们的标准聚类方法相比。

B.1 研究方法

本剥离研究的两种配置均采用了 SBERT 嵌入和 UnifiedQA 以保证检索的一致性。对于 RAPTOR，我们采用了标准的聚类和摘要流程。而对照配置则是通过递归地编码和摘要连续文块来构建平衡树。我们根据 RAPTOR 中观察到的平均聚类大小大约为 6.7 个节点，因此选择了 7 个节点的窗口大小。两种模型都采用了折叠树方法来进行检索。

B.2 结果与讨论

我们在表 9 中展示了消融实验的结果。这些结果明显显示，相比于基于时间近性的树结构方法，使用 RAPTOR 的聚类机制能显著提升准确度。这一发现证实了我们的预测：RAPTOR 的聚类策略在整理用于摘要的一致性内容方面更加高效，因而能够提高整体的信息检索效率。

表 9：RAPTOR 与基于时间近性树结构方法的消融实验结果对比

配置	准确率
RAPTOR + SBERT 嵌入 + UnifiedQA	56.6%
基于时间近性的树结构方法 + SBERT 嵌入 + UnifiedQA	55.8%

附录 C 数据集统计及压缩比率

跨所有数据集，摘要长度与子节点总长度的平均比值为 0.28，意味着达到了 72% 的压缩率。平均来说，摘要的长度为 131 个词，而子节点的平均长度为 86 个词。以下是三个数据集详细的统计数据：

表 10：各数据集平均摘要长度与子节点长度的统计

数据集	平均摘要长度（词数）	平均子节点文本长度（词数）	每个父节点平均子节点数	平均压缩比率（%）
所有数据集	131	85.6	6.7	28%
QuALITY	124.4	87.9	5.7	28%
NarrativeQA	129.7	85.5	6.8	27%
QASPER	145.9	86.2	5.7	35%

附录 D 摘要提示

表 11 展示了用于生成摘要的提示。

表 11：摘要生成提示

角色	内容
系统	您是一个专门进行文本摘要的平台
用户	请根据以下内容编写摘要，尽量包含所有关键细节：{context}:

附录 E 虚构内容分析

为了评估我们的 RAPTOR 模型在总结能力方面的质量与准确性，我们专门研究了模型生成摘要中的虚构内容现象。这些摘要由 gpt-3.5-turbo 生成，并经过人工标注来评估虚构内容出现的频率，探究这类不准确信息是否会影响到上级节点，并分析它们对问答（QA）任务可能产生的影响。

E.1 研究方法

我们从 40 个故事中随机选取了 150 个节点进行虚构内容的评估。此种抽样方法旨在全面审视模型在不同情境下的表现。每个节点均通过人工进行标注，以判断其是否含有虚构内容。

E.2 研究发现

在抽查的 150 个节点中，有 4%（即 6 个节点）包含了一定形式的虚构内容。这些虚构内容通常是模型基于其训练资料添加了一些原文中不存在的辅助信息，或者在生成摘要时不恰当地推断出了一些信息。

例如：

子节点文本：

”你愿意跟我一起回到我的族人那里吗？我们可以和他们一起生活，你将成为一位伟大的战士——哦，当 Jor 去世后，你或许可以成为酋长，因为没有人能像我的战士那样强大……”但你的父亲不会同意——Jor，我的父亲，Galus 的高级酋长，不会允许这样，因为像我一样，你是 cos-ata-lo。哦，Co-Tan，如果我们可以……Bradley 注意到她用英语说，虽然是断断续续的，但同样迷人。

父节点中的摘要：

故事的主角 Bradley 被 Co-Tan 邀请留下与她的人民一起生活，并成为一位伟大的战士，但他最终拒绝，选择返回自己的国家。来自圣莫尼卡的 Tom Billings 抵达，告诉他们他是来寻找名为 Bowen J. Tyler, Jr. 的人。Ajor，Co-Tan 的姐妹，对去 Tom 的国家体验奇异美妙的事物感到兴奋……

这里的虚构内容是，摘要中提到 Jr. Ajor 和 Co-Tan 是姐妹，但原文并未明确说明这一点。

在复查所有上级节点后，我们注意到，这些虚构内容并没有向上级节点扩散。总体而言，这些虚构内容影响较小，没有改变文本的主题理解。

E.3 对问答任务的影响

我们的研究发现，虚构内容对问答（QA）任务的执行影响甚微。这意味着，在我们 RAPTOR 模型的摘要组件中，虚构内容并不构成主要问题。

附录 F：检索方法的伪代码

算法 1：树遍历算法

定义遍历树函数 ( $树, 查询, k$ )：

初始时，将 $S_当前S_{text{当前}}$ 设置为树的第一层
遍历每一层：
- 初始化一个空列表 $top_k$ 来存放当前层最相关的 k 个节点
- 对当前层的每一个节点：
  - 计算该节点与查询的点积（相似度分数）
  - 将节点及其分数添加到 $top_k$ 列表中
- 从 $top_k$ 中选出分数最高的 k 个节点作为下一层的输入
继续遍历直到处理完所有层，然后返回所有层中选出的节点

算法 2：折叠树算法

定义折叠树函数 ( $树, 查询, k, 最大令牌数$ )：

首先，将树结构平铺成一维数组
初始化一个空列表来存放根据相似度分数选出的节点
遍历每一个节点：
- 根据节点与查询的点积，将节点添加到列表中
按照分数从高到低对节点进行排序
初始化结果列表和令牌计数器
遍历排序后的节点列表：
- 如果加入当前节点不会使总令牌数超过设定的最大值，则将该节点加入结果列表
返回结果列表中的节点

通过这两种算法，我们可以有效地从大量数据中检索出与查询最相关的信息，无论是通过层层深入地遍历树结构，还是通过将树结构简化为一维数组来快速筛选。

问题：故事的核心主题是什么？
RAPTOR	通过仙女教母的帮助，灰姑娘得以摆脱她的贫穷处境，穿上华丽的衣裳参加了王子的舞会。在舞会上，她深深吸引了王子的目光。但随着时间的流逝，她不得不在夜幕中匆匆离开。王子找遍所有角落也未能找到她，最终通过玻璃鞋找到了灰姑娘。她不仅宽恕了自己的姐妹，还和她们和睦相处，赢得了王子的心。
DPR	两只老鼠被变成了侍从，四只蚱蜢变成了马匹。接着，仙女一触，灰姑娘的破旧衣服瞬间变成了镶边花边的华丽绸缎礼服。可惜，当钟声敲响十一下时，一切幻想破灭。她发现自己身无分文，只剩下一个南瓜车和几只急忙逃跑的老鼠，而她曾经的华服又变回了破烂。尽管如此，王子还是从舞会上听说了一个美丽的公主，虽然他们没认出那就是灰姑娘。
问题：灰姑娘如何实现了她的幸福结局？
RAPTOR	故事讲述了灰姑娘如何在仙女教母的魔法帮助下，将一颗南瓜变成华丽马车，踏上了通往舞会的旅程。然而，她必须确保在午夜钟声响起之前返回，否则魔法将失效，她的美丽裙装会变回原来的破旧模样。在舞会上，她成功地吸引了王子的注意，但又不得不在他得知她身份之前匆忙离开。经过一番寻找，王子最终通过那只遗失的玻璃鞋找到了灰姑娘。灰姑娘不仅原谅了她的姐妹们，还得到了王子的深情厚爱。
DPR	当钟声敲响十一时，一切都变回了原样。王子在灰姑娘消失后感到非常惊讶，决定离开舞会去寻找她。仙女用魔法让灰姑娘的破烂衣裳变成了边缘镶着花边的丰富绸缎长袍，她的旧鞋也变成了光彩照人的玻璃鞋。“现在去参加舞会吧，我的爱人，”她说，“尽情享受。但要记住，在钟声敲响十一下之前你必须离开，否则你的华丽装束将变回原来的破旧模样。”

表 12: RAPTOR 和 DPR 检索到的关于童话故事《灰姑娘》问题的相关摘录，展示了灰姑娘如何在仙女教母的帮助下，从一个贫穷的女孩变成了舞会上的亮点，并最终找到了她的幸福结局。

附录 G 定性分析

我们通过在一个 1500 字的《灰姑娘》童话版本上测试 RAPTOR 的检索能力，对其进行定性分析。通过与密集段落检索（Dense Passage Retrieval，简称 DPR）的检索结果进行比较，我们观察 RAPTOR 如何工作。正文中的图 4 展现了 RAPTOR 在处理两个问题时如何通过其树状结构进行信息检索。RAPTOR 选中的节点被突出显示，而 DPR 为同一问题选中的叶节点则用箭头标出。这一比较突显了 RAPTOR 树状结构的优势：根据问题所需的详细程度，RAPTOR 能够从不同层级选择节点。而且，RAPTOR 检索的上下文通常包括了 DPR 所检索信息的内容，不论是直接作为叶节点，还是作为某一更高层次总结的一部分。

我们首先分析的问题是：“灰姑娘如何获得幸福结局？”这是一个需要综合不同文本信息才能回答的多跳问题。为了确保语言模型不依赖于对《灰姑娘》故事的预先了解，我们特意指令其只基于检索到的信息进行回答。表 13 显示了 RAPTOR 和 DPR 针对这一问题检索到的文本内容。RAPTOR 提供的上下文精准地描绘了灰姑娘追求幸福的过程，而 DPR 的信息则主要集中在她故事初期的转变上。这种信息检索的差异对后续处理产生了重要影响。使用 RAPTOR 的上下文，GPT-4 能够提供一个详细的答案：“灰姑娘的幸福结局是王子找到丢失的玻璃鞋的主人，发现它属于灰姑娘。他们最后结婚，灰姑娘的生活由此变得更好。”相反，当使用 DPR 的上下文时，GPT-4 则表示：“根据提供的上下文，不能确定灰姑娘如何达到幸福的结局，因文本未涵盖故事的最后部分。”

我们接下来探讨的问题是故事的核心主题是什么？这是一个涉及对全文深入理解的主题性问题。RAPTOR 和 DPR 检索到的文本，如表 13 所示，为我们提供了不同的视角。RAPTOR 提供了故事各个重要部分的简要描述，而 DPR 则给出了故事部分片段的详细描述。这种检索机制的差异明显影响了 GPT-4 在回答这个问题时的表现。例如，基于 DPR 提供的上下文，GPT-4 得出的结论是：“故事的核心主题是变化与内在美的力量，体现在灰姑娘这个善良而谦逊的女孩身上，她通过魔法变成了一位美丽的公主，赢得了王子乃至舞会上所有人的关注和赞赏。”这样的解读只覆盖了故事直到灰姑娘首次遇见王子的部分。相反，RAPTOR 提供的上下文使 GPT-4 能够给出一个更全面的答案：“故事的核心主题是变化与克服困难，灰姑娘在她的仙女教母帮助下，从一个受虐待和被踩踏的女孩转变为一个美丽自信的年轻女性，最终与王子共获幸福与爱。”这个答案展现了对整个故事的全面理解。

通过这次分析，我们可以看到 RAPTOR 因为能检索到更加相关和全面的信息，从而在处理后续任务时表现更为出色，超越了以往的检索机制。

此外，我们还编写了一个包含 2600 字的故事，并设计了一些关于其叙述和主题的问题。故事的一部分如下所示，完整故事的 PDF 链接在此。针对“故事的中心主题是什么？”这样的问题，检索到一个包含了句子“这是一个关于人与人之间联系力量的故事…它讲述了人们在追求各自激情的过程中，如何相互启发和鼓舞。”的高层节点。这一总结虽然不是原文中直接给出，却几乎直接回答了这个问题。

摘自《热衷的作家》：

Ethan 自小便对写作充满热情。童年时，他爱在笔记本上挥洒故事与诗词，随着年岁增长，对文字的热爱也日益浓厚。夜晚，他常在房间那微弱的灯光下，埋头笔电里的文字世界。尽管近期成为一家在线营销公司的内容创作者，以维持生计，他的心仍旧向往着故事的海洋。然而，正如许多梦想成为作家的人一样，Ethan 也在寻找进入文学界的机会中挣扎。这份工作让他逐渐认清，内容创作并非他渴望的生涯。就在此时，他偶然发现了 Pathways 应用，这是一个让同行者交流分享知识的平台，Ethan 视之为与其他写作爱好者建立联系的绝佳机会。他激动地加入了平台，惊喜地发现了众多作家，既有行业的资深人士，也有刚起步的新人。

附录 HNarrativeQA 评估脚本

为了更好地满足我们的评估需求，我们对 AllenNLP 的评估脚本做了若干调整：

引入平滑技术：为了解决因参考文本中缺乏 n-gram 匹配而导致 BLEU 分数归零的问题，我们添加了平滑功能。这一改进防止了 BLEU 分数的归零，使得对罕见或新颖短语的评估更为公正。
BLEU-4 权重调整：我们改变了原脚本中仅将最高序 n-gram（4-gram）的权重设为 1，其余为 0 的做法，改为将权重均匀分配到所有 n-gram 级别，即设置为 (0.25, 0.25, 0.25, 0.25)。这种调整旨在平衡评估中对各级 n-gram 的关注。
METEOR 计算中先分词后映射：我们修正了原脚本中直接分割和映射的方法，通过先对文本进行分词再进行映射，提高了 METEOR 计算的准确性。这种改进考虑了词语的正确边界，使评估结果更加精确。

问题：故事的主旨是什么？
RAPTOR	故事讲述了仙女教母如何帮助灰姑娘换上华丽的礼服，使她能够出席王子的舞会。在舞会上，灰姑娘以她的美丽和优雅赢得了王子的青睐。但由于时间紧迫，她不得不在午夜前匆匆离开，留下了那只著名的玻璃鞋。这启动了王子对她的搜寻——最终，两人团聚，并且灰姑娘不仅原谅了她的继姐妹，还以善良对待她们，而王子也为找到她而感到万分幸福。
DPR	在仙女教母的魔法下，灰姑娘的破旧衣裳变成了一袭镶有蕾丝的缎面礼服，而她的跟班和马匹，则是由老鼠和蚱蜢奇妙变化而来。然而，当钟声敲响十一次，她的一切华丽转瞬即逝，她不得不独自一人，穿着破旧的衣裳回家。尽管如此，她在舞会上的出现仍然给所有人留下了深刻的印象，尽管她的身份对所有人都是个谜。
问题：灰姑娘如何迎来幸福的结局？
RAPTOR	灰姑娘的故事是一段魔幻之旅，她在仙女教母的帮助下，不仅出席了舞会，还深深吸引了王子的目光。虽然她匆匆离开了舞会，但王子通过一只遗落的玻璃鞋找到了她。灰姑娘的善良和宽容赢得了所有人的尊敬和爱戴，最终与王子幸福地团聚，这不仅是她个人的幸福，也是对善良与美好的一次胜利。
DPR	当钟声响起，灰姑娘的梦幻夜晚告一段落。然而，王子对那位神秘公主的思念使他决定寻找她。在仙女的帮助下，灰姑娘再次穿上了那件光彩夺目的缎面长袍和闪耀的玻璃鞋。在一系列的误会和寻找之后，王子终于找到了灰姑娘，揭开了她的真实身份。他们的重逢不仅是命运的安排，也是爱情的胜利，灰姑娘的故事告诉我们，无论遭遇多大的困难，真爱和善良总会找到出路。

表 13: 关于童话故事《灰姑娘》的问题，RAPTOR 和 DPR 检索到的相关摘录。

附录 I 对 RAPTOR 性能多层面分析的探讨

I.1 层级对性能的影响是什么？

在这一节里，我们详细分析了 RAPTOR 在对其分层树结构的不同层级进行查询时的检索性能如何。这些数据表明了 RAPTOR 多层次架构在满足各种查询需求时的有效性。

图 7: 展示了在三个数据集（NarrativeQA、Quality 和 Qasper）中，通过三种检索工具（SBERT、BM25 和 DPR）在 RAPTOR 树不同层级上检索到的节点比例的直方图。数据显示，对最终检索结果有重要贡献的节点很大一部分来源于非叶节点层，特别是第一层和第二层的节点，这强调了 RAPTOR 分层汇总在检索过程中的关键作用。

表 14: 在查询树的不同层级时，RAPTOR 对故事 2 的性能表现。

查询的层级 / 起始层级	叶子层（第 0 层）	第 1 层	第 2 层
查询 1 层	58.8	47.1	41.1
查询 2 层	–	64.7	52.9
查询 3 层	–	–	47.1

表 15: 在查询树的不同层级时，RAPTOR 对故事 3 的性能表现。

查询的层级 / 起始层级	叶子层（第 0 层）	第 1 层	第 2 层
查询 1 层	66.6	61.1	61.1
查询 2 层	–	66.6	66.6
查询 3 层	–	–	83.3

表 16: 在查询树的不同层级时，RAPTOR 对故事 4 的性能表现。

查询的层级 / 起始层级	叶子层（第 0 层）	第 1 层
查询 1 层	94.7	84.2
查询 2 层	–	89.4

表 17: 在查询树的不同层级时，RAPTOR 对故事 5 的性能表现。

通过对比不同层级的查询效果，我们不仅可以看出 RAPTOR 在处理复杂查询时的灵活性，也能理解到分层结构在提高检索效率和准确度方面的重要性。

被查询层数 / 起始层级	第 0 层 (叶节点)	第 1 层
查询 1 层	57.9	47.3
查询 2 层	–	68.4

I.2 检索出的节点多来自哪些层级？

我们对三个不同的数据集和三种检索器与 RAPTOR 的组合进行了深入分析，旨在探究这些检索出的节点分别来源于哪些层级。研究发现，18.5% 到 57% 的节点不是来自于树的末端（即叶节点），而是来自于更高层次的非叶节点。正如图 7 所示，通过不同层级的检索模式，我们可以看出 RAPTOR 多层树状结构的重要性。特别是，在处理 NarrativeQA 数据集时，使用 DPR 检索器检索出的节点，很大一部分来自于树的第一和第二层，这与叶节点形成了鲜明对比。这种模式在其他数据集和检索器中也有所体现，尽管各有差异。

表 18：不同数据集及检索器中，非叶节点占比

数据集	DPR	SBERT	BM25
NarrativeQA	57.36%	36.78%	34.96%
Quality	32.28%	24.41%	32.36%
Qasper	22.93%	18.49%	22.76%

表 19：使用 DPR 检索器，各层节点占比

层级	NarrativeQA	Quality	Qasper
0	42.64%	67.71%	77.07%
1	45.00%	29.43%	21.88%
2	10.57%	2.85%	1.05%
3	1.78%	–	–
4	0.003%	–	–

表 20：使用 SBERT 检索器，各层节点占比

层级	NarrativeQA	Quality	Qasper
0	63.22%	75.59%	81.51%
1	31.51%	22.78%	17.84%
2	4.85%	1.63%	0.65%
3	0.42%	–	–

通过这些数据，我们不难发现 RAPTOR 在不同数据集上的检索策略及其多层次结构的显著性，尤其是非叶节点在信息检索过程中的关键角色。这一发现强调了在构建有效的检索系统时，考虑多层结构的重要性。

表 21: 不同层级节点使用 BM25 检索方法的占比情况

层级	NarrativeQA	数据质量	Qasper
0	65.04%	67.64%	77.24%
1	28.79%	28.85%	21.57%
2	5.36%	3.51%	1.19%
3	0.81%	–	–

此表展示了在使用 BM25 检索策略时，不同层级（即从表面到深层的信息层次）的节点在 NarrativeQA、数据质量和 Qasper 三个领域中的分布占比。层级 0 的占比最高，说明大部分检索结果来自最表面的信息层次，而随着层级的增加，占比逐渐减少，反映了深层信息在检索中的较少使用。

摘要