探究推理步骤长度对大语言模型的影响 [译]

摘要

阅读目录

在增强大型语言模型（LLMs）推理能力的过程中，“思维链”（Chain of Thought，简称 CoT）扮演着关键角色。但是，CoT 效果与其推理步骤的长度之间的具体联系还不太明确。为了弄清楚这一点，我们开展了一系列实证实验。我们的实验主要围绕在 CoT 示范中对推理步骤进行扩展或压缩，同时保证其他所有因素不变。我们的研究发现了几个重要点。首先，结果显示，即使不在提示信息中加入新内容，增加推理步骤也能显著提升 LLMs 在各种数据集上的推理表现。相反，减少推理步骤即便保留了核心信息，也会明显削弱模型的推理能力。这一点强调了 CoT 中推理步骤数量的重要性，并为在解决复杂问题时更有效地利用大语言模型提供了实用的指导。其次，我们还研究了 CoT 的效果与示范中使用的推理理由之间的关系。出乎意料的是，即便是错误的推理理由，只要保持了足够的推理步骤长度，也能取得不错的效果。最后，我们发现，增加推理步骤的益处取决于任务的性质：简单任务需要较少的推理步骤，而在处理更复杂的任务时，更长的推理过程则会带来显著的优势。

1 引言

如今，随着大语言模型 (LLMs) 及其先进提示策略的出现，尤其在经典的自然语言处理 (NLP) 任务上，我们见证了显著的进步。这方面的重要创新包括思维链 (Chain of Thought, CoT) 提示技术，该技术以其在解决多步骤问题中的有效性而备受关注。思维链技术模仿人类的连续推理过程，在各种挑战中展现出卓越的效果，比如跨领域、长度泛化和跨语言任务。CoT 方法的逐步逻辑推理，为复杂问题解决提供了关键的可解释性。有意思的是，Wang 等人的研究发现，即便是错误但逻辑连贯的推理也能提升解题性能，这凸显了逻辑一致性的重要性。基于此，Fu 等人引入了基于复杂度的提示方法，不仅显著提高了准确性，还创下了新的标准。这项研究还进一步揭示了推理步骤的长度与结论准确性之间的密切联系，加深了我们对于有效解决 NLP 问题的理解。

尽管这些研究成果颇具前景，但科学界还没有就 CoT 及其变体的有效机制达成一致认识。这一知识空白意味着提高 CoT 性能仍是一个探索性领域，目前主要依赖于试错方法。目前还没有建立起改善 CoT 效果的系统方法论，研究人员不得不依靠猜测和实验。这种情况凸显了该领域一个重要的机遇：深入了解 CoT 内部运作机制，并建立更为结构化的认识。这种进展不仅能解开当前过程的神秘面纱，还将为 CoT 技术在各种复杂 NLP 任务中的可靠和高效应用铺平道路。

在本研究中，我们着眼于探究在连续任务（CoT）中，推理步骤是否扮演着决定性的角色（详见图 1）。为了验证这一点，我们进行了一系列实验，并严格控制了实验变量。特别是在加入新的推理步骤时，我们特别注意不引入额外的信息。在零样本（zero-shot）实验中，我们把原本的提示“让我们一步步思考”修改为“让我们一步步思考，你必须思考更多步骤”。而在少样本（few-shot）实验设置中，我们专注于在 CoT 示范中增加推理步骤，同时保持其他因素不变。我们首先评估了使用 Auto-CoT（Zhang et al., 2022）及我们的策略在零样本和少样本性能上的提升。接下来，我们比较了不同方法在不同推理步长下的准确率。我们还将研究扩展到比较我们的策略在不同的大语言模型（LLM），如 GPT-3.5 和 GPT-4 上的效果。我们的研究发现，推理链的长度与大语言模型的能力之间存在显著的相关性，但这种相关性是有限度的。更有意思的是，即使我们在推理链中加入了误导性信息，模型的性能仍然得到了提升。这揭示了一个关键的观点：重要的不是推理链的准确性，而是其长度。我们总结了以下几点关键发现，希望能帮助社区更好地提升 CoT 性能：

在少样本 CoT 中，步骤计数与准确性之间存在直接的线性关系。这意味着在处理复杂推理时，通过增加提示中的推理步骤，可以显著提高大语言模型的推理能力。相反，缩短推理步骤，即便保留了关键信息，也会明显降低模型的推理能力。
甚至错误的推理也能带来积极的结果，只要保持了必要的推理长度。例如，在数学问题等以过程为导向的任务中，中间步骤的错误对最终结果的影响较小。
增加推理步骤的益处因任务而异：简单任务需要较少的步骤，而复杂任务则从更长的推理序列中受益更多。
在零样本 CoT 中，增加推理步骤同样能显著提升大语言模型的准确性。我们通过将初始提示从“让我们一步步思考”修改为“让我们一步步思考，你必须思考更多步骤”来验证这一点。这一改动使得大语言模型在处理数学问题等数据集时的推理能力得到了显著提升。

3 分析方法

本节提出了一种分析方法，旨在探索推理步骤与链式思考 (CoT) 提示性能之间的关系。我们的主要假设是，推理步骤是 CoT 提示中最重要的部分，它使得语言模型在生成回答时能够运用更多逻辑推理。为验证这一点，我们设计了实验，扩展和压缩了 CoT 演示中的理性推理步骤，同时保持其他所有因素不变。具体而言，我们仅改变了推理步骤的数量，而没有新增或删减任何推理内容。在后续部分中，我们对零样本和少样本的 CoT 提示进行了评估。整个实验流程如图 2 所展示。通过这项受控分析，我们希望揭示 CoT 是如何影响大语言模型 (LLM) 产生逻辑上合理回答的能力。

3.1 初探

零样本链式思考（Zero-Shot-CoT，Kojima et al., 2023）是一种基于模板的零样本智能体提示方法，用于逐步推理。其核心在于加入诸如“让我们逐步来分析”之类的文本。与之相比，少样本链式思考（Few-Shot-CoT）则在提示中提供更多示例以辅助推理过程。在此领域中，手动式链思考（Manual-CoT，Wei et al., 2022）和自动式链思考（Auto-CoT，Zhang et al., 2022）是两种颇受欢迎的方法。

手动式链思考：这种方法依靠一些人工设计的示例，每个示例包括一个问题和一个推理链，以提升语言模型的推理能力。

自动式链思考：此方法通过自动化手段构建示例，避免了人工设计的需要。它通过对测试问题进行分类，挑选多样化的示例，并利用语言模型本身的零样本推理能力来生成推理链。

3.2 分析零样本链思考

表 1：词语思考案例，选择几个词让模型分析它们在文本中的含义。

词语思考
提示：
问：有人在东京能乘坐出租车去大都会艺术博物馆吗？
答：让我们逐步分析。问题的核心是“东京”、“乘坐出租车”、“大都会艺术博物馆”。先思考东京…再思考乘坐出租车…最后思考大都会艺术博物馆…推断：东京位于日本，而大都会艺术博物馆在纽约。两地被海洋隔开，因此不能乘出租车前往。答案是否定的。
问：一只花栗鼠能把 100 颗巧克力豆塞进嘴里吗？
回答：
答：针对这个问题，问题的核心是“花栗鼠”、“塞入”、“100 颗巧克力豆”、“嘴巴”。先思考花栗鼠…再思考塞入…最后思考巧克力豆…推断：花栗鼠体型较小，嘴巴也相对较小，所以它不太可能一次性将 100 颗巧克力豆塞进嘴里。答案是否定的。
预测：不
实际情况：不

在零样本情境下，我们将初始提示从“让我们逐步来分析”修改为“让我们逐步分析，你必须考虑更多步骤。”这一调整源于零样本场景与少样本场景的不同之处：在零样本场景中，我们无法在示例中增加额外的推理步骤。通过改变提示方式，我们鼓励大语言模型进行更全面的思考。这种策略至关重要，因为它在不需要增量训练或借助额外示例驱动调整的情况下，提升了模型的准确性。这种改进策略保证了更深入详尽的推理过程，显著提高了模型在零样本场景下的表现。

3.3 深入探索少样本思维链 (CoT) 分析

本节中，我们致力于调整 CoT（思维链）的推理过程，具体做法是增加或简化推理步骤。我们旨在探索推理结构变化是如何影响大语言模型（Large Language Model）做出决策的。在拓展推理过程时，我们刻意避免加入任何新的与任务相关信息，确保推理步骤成为我们研究的唯一变量。

为了达到这一目标，我们计划研究以下几种策略，以拓展不同大语言模型应用场景中的推理步骤。人们在思考问题时通常会遵循一定的模式，比如不断重复问题以深化理解、构建数学方程以减轻记忆负担、分析问题中的关键词以帮助理解主题、概括当前状况以简化问题描述等。借鉴零样本 CoT（Zero-Shot-CoT）和自动 CoT（Auto-CoT）的理念，我们预期 CoT 的过程会形成一种标准模式，并通过在提示部分限制思考方向，引导出正确的结论。我们方法的核心是模拟人类的思考过程，重新构建思维链条。在附录中的表 6 中，我们提出了五种基本的提示策略。

深入理解关键词：这个策略要求模型深入解释关键词并重构知识体系。一般来说，一个词可能有多重含义，这种策略可以激发模型跳出常规思维，根据新的解释重新理解问题中的关键词。这一过程不会引入新的信息。在提示中，我们提供了一些模型所考虑的词汇示例，并且模型会根据新问题自主选择用于此过程的词汇。
反复阅读问题：通过重复阅读问题，减少其他文本对思维链的干扰。简言之，我们的目标是让模型记住问题的核心。
状态回顾：类似于重复阅读，我们在长推理链的末尾加入了对当前状态的简要总结，目的是帮助模型简化记忆并减少 CoT 中其他文本的干扰。
自我检验：与人类在回答问题时会进行自我验证类似，我们在模型给出答案前加入了自我验证环节，通过一些基本信息来判断答案的合理性。
构建方程：对于数学问题，构建方程有助于人类总结和简化记忆。对于需要假定未知数 $x$ 的问题，建立方程是一个关键步骤。我们模拟了这一过程，并引导模型在解决数学问题时尝试构建方程。

总的来说，我们的提示策略在模型的回应中呈现出了一致的模式。我们在表 1 中提供了一个实例，其他四种策略的示例可在附录中找到。在第 4 节中，我们将通过定量分析来验证这些策略的有效性。

4 实验结果

表 2: 我们方法与四种基准模型在八个数据集上的准确度对比

模型	算术常识	符号运算	多步算术	GSM8K	AQuA	单等式	SVAMP	策略游戏	字母排列
零样本 (Zero-Shot)	40	30.4	29.9	82.7	56	94	37	79.8
零样本-CoT	91.5	64.1	55.6	87.4	37	99.9	58.3	46	99.3
手动-CoT	93.5	64.7	55	92.1	82.3	65.3	75	92.7
自动-CoT	94	65.8	65	92	81.9	65.3	73.5	93
多步思考 (Zero-Shot-CoT)	95.2	76.1	62.1	87.4	37	99.9	72.6	69	97
增加推理步骤 (手动-CoT)	97	70.1	62.5	88.9	78.5	26.8	67.7	89.7	7.3
增加推理步骤 (自动-CoT)	97.2	78.8	64	92.7	18.3	70.2	67.1	29.9

我们的实验旨在解答以下研究问题：
RO1: 在示范中加入理性推理步骤与 CoT 性能的关系是什么？ (见 4.2 节)
RO2: 推理步骤是否是影响大语言模型性能的唯一因素？ (见 4.3 节)
RO3: 在少样本示范中简化推理步骤会影响大语言模型的性能吗？ (见 4.4 节)
RO4: 是否能观察到大语言模型的规模现象，即所需推理步骤与模型大小的关系？ (见 4.5 节)
RO5: 在推理过程中加入问题对大语言模型的推理能力有何影响？ (见 4.6 节)

表 3: 错误提示案例，改变思维链中的一步，同时保持整体连贯性

原始提示	错误提示
Q: Joan 有 10 本书。Tom 有 38 本书。他们总共有多少本书？ R: 逐步思考。Joan 有 10 本书，Tom 有 38 本书。通过计算得出书籍总数 = 10 + 38 = 48。因此，他们总共有 48 本书。 Q: Megan 有 217 个标记。Robert 送给她 109 个。Megan 现在总共有多少个标记？	Q: Joan 有 10 本书。Tom 有 38 本书。他们总共有多少本书？ R: 逐步思考。Joan 有 10 本书，Tom 有 38 本书。我们错误地计算书籍总数 = 10 + 8 = 48。但实际上，他们总共有 48 本书。 Q: Megan 有 217 个标记。Robert 送给她 109 个。Megan 现在总共有多少个标记？

4.1 实验设置

本节将介绍我们实验的基本设置。

数据集与模型。我们在八个数据集上评估了我们的方案，这些数据集包括：MultiArith（Roy & Roth, 2015）, GSM8K（Cobbe et al., 2021）, AQuA（Ling et al., 2017）, SingleEq（Koncel-Kedziorski et al., 2015）, SAVMP（Patel et al., 2021）, Letter（Wei et al., 2022）, Coin（Wei et al., 2022）, Strategyqa（Geva et al., 2021）。我们使用了三种模型来验证我们提出方法的有效性，分别是：text-davinci-002（Brown et al., 2020）, GPT-3.5-turbo-1106（Ouyang et al., 2022）, GPT-4（OpenAI, 2023）。所有这些模型都是通过 OpenAI API 密钥来访问的。

实验流程。正如第 3 节中分析方法所述，我们展示了提出的实验流程。实验部分也是按照这一流程进行的。

基准对比。我们的方法与四种基线方法进行了对比，包括：Zero-Shot（Kojima et al., 2023）, Zero-Shot-CoT（Kojima et al., 2023）, Manual-CoT（Wei et al., 2022）, Auto-CoT（Zhang et al., 2022）。相关结果详见表 2。

评估指标。我们使用准确率来评估模型在分类任务上的表现，它通常用于多选题和是/否题型。准确率的计算公式为：准确率 = 正确答案数量 / 总答案数量。

实施细节：

增加推理步骤：我们利用 GPT-4 对“一步一步思考”生成的零样本-CoT（Zero-Shot-CoT）示例进行了改进，加入了第 3 节中提到的五个推理步骤。这使我们能够明确定义示例中包含的步骤数量和类型。接着，我们将这个示例作为提示输入，以此进行了一系列实验。
精简推理步骤：在此实验中，我们尝试了一种新方法：对少样本-CoT 中的理由推理链进行精简。具体做法是随机挑选两个连续句子，并使用 GPT-4 将它们有效合并。我们提出了这样的提示：“请精简以下两个句子，尽量保留所有信息，同时使其尽可能简洁。”这个方法旨在有针对性地优化推理链。
筛选答案：在选择最终答案时，我们遵循了零样本-CoT 的结构。在得到模型的回应后，我们仅选取符合预设答案格式的部分。

4.2 步骤增加与准确性提升的关系

表 2 展示了使用 GPT-3.5-turbo-1106 在三种推理任务类别的八个数据集上的准确性比较。所有结果均为三次随机实验的平均值。我们所取得的最佳结果（SOTA）是基于每个数据集最优步骤的实验数据。我们的零样本-CoT 参考了第 2.1 节，而增加推理步骤（手动-CoT）和增加推理步骤（自动-CoT）则参考了第 2.2 节。

我们通过标准化思维链的过程，能够量化地看到随着推理步骤的增加，准确性有所提高。我们进行了一项实验，旨在探究在 CoT 过程中推理步骤的增加与 CoT 性能之间的关系。这项实验使用 GPT-3.5-turbo-1106 完成，结果显示在图 3。我们发现，在有效的 CoT 过程中，也就是增加了多达六个额外的思维步骤时，大语言模型（LLM）的推理能力在所有数据集上都有所提升。换言之，我们发现了准确性和 CoT 复杂度之间的一种线性关系。

图 3: 步骤数量与准确性之间的线性关系

图 4: 比较正确答案提示与错误答案提示的准确性

4.3 错误答案对思维链条的影响

为了探究：除了推理步骤外，还有什么因素会影响大语言模型（LLM）的表现？我们进行了以下实验。我们修改了提示中的一步，将其改为错误答案，以观察这是否会影响思维链条。在这个实验中，我们将所有的提示都改成了含有一个错误的版本。具体例子可以参考表 3。对于算术类问题，即使提示中的一个步骤有误，它对推理过程中思维链条的影响也非常小。因此，我们认为大语言模型更多地学习了提示中的思维链条模式，而不是单一的计算过程。而对于类似 Coin 数据集中的逻辑问题，提示中的一项错误往往会导致整个思维链条崩溃。我们使用 GPT-3.5-turbo-1106 完成了这个实验，并根据之前实验得出的每个数据集的最佳步骤数来保证性能。实验结果如图 4 所示。

4.4 精简推理步骤

表 4：故意修改样本问题

原始提示
问题：Wendy 在 Facebook 上上传了 45 张照片。她把 27 张放到一个相册里，剩下的分到 9 个不同的相册里。每个相册里有几张照片？
推理过程：“让我们一步一步来分析。首先，Wendy 上传了总共 45 张照片。然后，她把其中的 27 张放进了一个相册。这意味着，剩下的 18 张分布在 9 个不同的相册里。所以，每个相册有 2 张照片。”
预测答案： “2″
确定答案： “2″
故意修改
问题：Wendy 在 Facebook 上上传了 66 张照片。她把 89 张放到一个相册里，剩下的分到 7 个不同的相册里。每个相册里有几张照片？
推理过程：“让我们一步一步来分析。首先，Wendy 上传了总共 54 张照片。然后，她把其中的 27 张放进了一个相册。这意味着，剩下的 12 张分布在 6 个不同的相册里。所以，每个相册有 7 张照片。”
预测答案： “2″
确定答案： “2″

在之前的章节里，我们证明了增加推理步骤能够提高大语言模型在推理问题上的准确率。在这一节，我们想要解答的问题是 RO3：在少样本示例中减少推理步骤，会不会影响大语言模型的表现？为了找到答案，我们进行了一项压缩推理步骤的实验。我们采用了实验设置中描述的方法，对基线自动思维链条（Auto-CoT）和少样本思维链条（Few-Shot-CoT）的示例进行了推理过程的压缩，目的是减少推理步骤的数量。实验结果如图 5 所示。结果表明，这种做法显著降低了它们的表现，水平基本上退化到了零样本方法的程度。这进一步说明，增加思维链条（CoT）的推理步骤可以提升其性能，反之亦然。

图 5：比较压缩和未压缩提示的准确性

4.5 在不同尺寸的模型上的性能表现

本章的重点是探讨 RO4 提出的问题：大语言模型的大小是否影响所需的推理步骤数量？我们对比了包括 text-davinci-002、GPT-3.5-turbo-1106 和 GPT-4 在内的不同模型的平均推理步数。我们选用 GSM8K 数据集进行了实验，计算出每个模型达到最佳性能时的平均推理步数。在我们的 8 个数据集中，GSM8K 数据集在这三个模型上显示出了最大的性能差异。值得注意的是，初始性能最差的 text-davinci-002 在我们的策略下提升最显著。而初始性能最好的 GPT-4 则对我们的策略最为容忍，没有出现性能下降。具体的结果展示在图 6。

图 6：在 GSM8K 数据集上比较不同尺寸模型的准确度。

4.6 CoT 示例中提问对推理的影响

表 5: 不同数据集上模型准确率的比较

| 模型 | MultiArith | GSM8K |
| :— | :—:: | :—: |
| 零样本 | 40 | 30.4 |
| 零样本-CoT | 91.5 | 64.1 |
| 手动-CoT | 93.5 | 64.7 |
| 自动-CoT | 94 | 65.8 |
| 改变问题后 | | |
| (手动-CoT) | 92.9 | 62.1 |
| 改变问题后 | | |
| (自动-CoT) | 92.5 | 63.5 |
| 增加推理步骤 | | |
| (手动-CoT) | 97 | 70.1 |
| 增加推理步骤 | | |
| (自动-CoT) | 97.2 | 78.8 |
| 同时增加推理步骤和 | | |
| 改变问题 (手动-CoT) | 96.6 | 69.6 |
| 同时增加推理步骤和 | | |
| 改变问题 (自动-CoT) | 95.7 | 75.2 |

在我们的研究中，我们探讨了这样一个问题：提问方式在推理过程中扮演了怎样的角色？我们的目的是探索在 CoT（Chain of Thought）中改变推理方式是否会影响其整体效果。考虑到我们主要关注的是推理步骤对性能的影响，因此我们首先确保提问方式本身不会对性能产生影响。为此，我们选取了两个数据集和两种 CoT 方法——自动-CoT 和少样本-CoT——进行研究，分别是 MultiArith（Roy & Roth, 2015）和 GSM8K（Cobbe et al., 2021），并在 GPT-3.5-turbo-1106 上进行测试。我们的实验方法涉及对这些数学数据集中的样本问题进行有意改动，比如改变表 4 中的问题内容。令人注目的是，初步观察显示，这些改动对模型性能的影响微乎其微，正如表 5 所示。

这一初步发现意味着，在推理过程中的步骤长度，而非问题本身的性质，是影响大型模型推理能力的主要因素。

5 结论与未来展望

在本研究中，我们在理解和优化大型语言模型中的链式推理技术方面，特别是在处理复杂的推理任务时，做出了重要的突破。我们对自然语言处理中的链式推理技术进行了深入研究，尤其集中在像 GPT-3、GPT-3.5 和 GPT-4 这样的先进模型上。我们的研究揭示了一个关键发现：推理链的长度和模型的表现之间有着密切的联系。值得注意的是，即使推理链中包含了一些错误信息，更长的推理链也能有效提升模型的性能。这意味着，在解决问题时，推理链的长度比其内容的准确性更加重要。这一发现为我们在优化链式推理策略时提供了宝贵的参考，强调了在处理复杂语言任务时推理长度的重要性。

接下来，我们计划对大型语言模型推理过程中的长短推理步骤进行更深入的分析。我们希望了解，更长的推理步骤是否涉及更多的神经网络活动。为此，我们将利用可视化技术来探究不同长度推理步骤的激活模式差异。

表 6: 提高推理步骤效率的一些策略

考虑这个词

提示：

问：有人在东京能坐出租车直接去纽约的大都会艺术博物馆吗？

答：让我们逐步分析。重点在于“东京”、“坐出租车”和“大都会艺术博物馆”。想一想东京…想一想坐出租车…想一想大都会艺术博物馆…推理如下：东京位于日本，而大都会艺术博物馆在美国纽约。由于两地被海洋隔开，显然不可能乘坐出租车前往。因此，答案是否定的。

问：一只花栗鼠能一次性把 100 颗巧克力豆塞满嘴巴吗？

答案：

答：根据这个问题，我们关注的是“花栗鼠”、“塞入”、“100 颗巧克力豆”和“嘴巴”。考虑一下花栗鼠…考虑一下塞入…考虑一下巧克力豆…推理结果：考虑到花栗鼠体型较小，嘴巴相对也很小，它不太可能一次就能把 100 颗巧克力豆塞进嘴里。答案是不可能。

预测：不可能

实际：不可能

再读一遍问题

提示：

问：马克的父亲给了他 85 美元。马克买了 10 本书，每本书 5 美元。那么，马克现在手头还剩多少钱？

答：让我们一步步来分析。我们要解决的问题是：马克现在还剩多少钱。首先，我们需要计算出马克手头的余额。马克原本有 85 美元，但他买了 10 本书，每本 5 美元，总共花费了 50 美元。因此，马克现在的余额是 85 美元减去 50 美元，即 35 美元。所以答案是 35 美元。

问：查理在果园里摘了 0.1666 袋金苹果、0.1666 袋麦金托什苹果和 0.3333 袋考特兰苹果。那么，查理总共摘了多少袋水果？

答案：

答：这个问题的关键是计算查理总共摘了多少袋水果。现在我们来分析。查理摘了 0.1666 袋金苹果、0.1666 袋麦金托什苹果和 0.3333 袋考特兰苹果。要得出总数，我们只需将这些分数相加。0.1666 加 0.1666 加 0.3333 等于 0.6665。因此，查理总共摘了大约 0.6665 袋水果。答案是 0.6665。

预测：0.6665

实际：0.6666

重复状态

提示：

问：一枚硬币正面朝上。珍妮特没有翻转硬币。斯泰西翻转了硬币。罗尼翻转了硬币。金没有翻转硬币。那么现在硬币的正面还是朝上吗？注意，这里的“翻转”意味着“反转”。

答：我们来一步一步分析这个问题。首先，我们知道硬币开始时正面朝上。珍妮特没有翻转硬币，所以状态不变。斯泰西翻转了硬币，这意味着硬币从正面变到了反面。然后，罗尼又翻转了硬币，硬币再次从反面变回正面。最后，金没有翻转硬币，所以状态保持不变。因此，最终硬币仍然是正面朝上。答案是是的。

| A: 我们逐步分析一下。最初，硬币是正面朝上的。Janette 没有动它，所以它仍是正面朝上。Stacey 翻了一下，现在变成了反面。然后 Ronny 又翻了一下，它又变回正面了。Kim 没有翻动，因此硬币最后仍是正面朝上。答案是“是”。

Q: 硬币原来是正面朝上。Jeff 没有翻动它。接着 Jen 和 Giselle 分别翻动了硬币。Noel 没有翻动。那么，最后硬币还是正面朝上吗？这里的“翻转”指的是反面变正面，反之亦然。 |
| 答案：|
| 硬币开始时是正面朝上。Rachel 和 Alisa 都没有翻动它，所以它保持不变。Fanny 也没有翻动，状态仍然不变。Jeffery 同样没有翻动它，因此硬币始终保持着最初的状态，即正面朝上。最终答案是“是”，硬币还是正面朝上。 |
| 预测：是 |
| GT: 是 |

自我验证

提示：

问题：将 “Alina Alessandra Amina Bianca” 中每个单词末尾的字母拼接起来。

答案：我们逐步分析。共有四个单词，答案将是四个字母的组合。所谓拼接，指的是在计算机编程和数学中，把两个或更多字符串、序列或集合按顺序组合在一起。”Alina”结尾是”a”，”Alessandra”结尾也是”a”，”Amina”同样以”a”结尾，而”Bianca”的结尾是”a”。总共四个字母，答案就是”aaaa”。

问题：把 “Jeff Jen Giselle Noel” 中每个单词的尾字母串联起来。

答案：

四个单词，答案由四个字母构成。拼接，即在编程和数学中，将多个字符串或序列顺序合并的操作。”Jeff”的结尾是”f”，”Jen”的结尾是”n”，”Giselle”结尾是”e”，”Noel”的结尾是”l”。四个字母组合，最终答案是”fnel”。

预测：fnel

正确答案：fnel

制作方程式

提示：

问题：一辆公交车上有 5 个孩子。在一个站点，有 63 个孩子下车，同时又有其他孩子上车。之后，车上共有 14 个孩子。那么，上车的孩子比下车的多多少？

答案：我们逐步分析。起初，车上有 5 个孩子。然后，有 63 个孩子下车。接着，又有一些孩子上车，我们暂且称之为 x。最后，车上剩下 14 个孩子，这样我们就可以计算出 x 的值。方程是 x + 5 – 63 = 14，解得 x 是 72。因此，上车的孩子比下车的多 9 个。答案是 9。

问题：Rachel 需要完成 8 页数学作业。如果她的数学作业比阅读作业多 3 页，那么她总共需要完成多少页作业？

答案：

这个问题要求我们计算出 Rachel 总共需要完成多少页作业，条件是她已完成了 8 页数学作业，且数学作业比阅读作业多 3 页。我们知道 Rachel 完成了 8 页数学作业，假设数学作业页数为“M”。另外，她的数学作业比阅读作业多 3 页，我们假设阅读作业页数为“R”。根据这些信息，我们可以得出 M = R + 3 的方程式来表示数学作业和阅读作业的关系。如果 Rachel 完成了 8 页数学作业，我们可以把 M = 8 代入方程式，求出 R 的值：8 = R + 3，得出 R = 5。因此，Rachel 需要完成 5 页阅读作业。现在，我们通过将数学和阅读作业的页数相加，就能得出 Rachel 总共需要完成的作业页数。

总计 = 8（数学）+ 5（阅读）= 13

所以，Rachel 总共需要完成 13 页作业。
| 预测：13 |
| 实际答案：13 |

表 7：错误提示示例

错误提示示例

—

算术数据集

提示：

问题：Joan 有 10 本书。Tom 有 38 本书。他们总共有多少本书？

答案：让我们一步一步来分析。Joan 有 10 本书，Tom 有 38 本书。将这两个数字相加，10 + 38 = 48，所以他们共有 48 本书。

常识数据集

提示：

问题：有人在东京能坐出租车去大都会艺术博物馆吗？

答案：让我们一步一步来思考。首先看东京，它是日本的首都，世界上人口最多的大都市之一。再看大都会艺术博物馆，它是位于纽约市的艺术博物馆。东京在日本，大都会艺术博物馆在纽约，两地相隔遥远，中间隔着海洋，所以不能坐出租车前往。

符号数据集

提示：

问题：从’Tim Candace Cecil Misael’的每个单词的最后一个字母中提取并连接起来。

答案：让我们一步一步来分析。首先了解字母的含义，它在不同情境下代表字母字符、通信、文学和书籍等。这里有四个单词，答案将由四个字母组成。‘Tim’的最后一个字母是‘m’，‘Candace’的最后一个字母是‘e’，‘Cecil’的最后一个字母是‘l’，’Misael’的最后一个字母是’l’。因此，我们得到的四个字母是“mell”。

探究推理步骤长度对大语言模型的影响 [译]

1 引言

相关工作

2.2 对 CoT 分析的初步工作