通向通用人工智能的里程碑：评估进展的新框架 [译]

我们构建了一个新的框架，这个框架可以帮助我们更好地理解通用人工智能（AGI）及其早期版本的能力和表现。这个框架详细划分了 AGI 的性能、适用范围和自我控制能力的不同层次。我们希望，这个框架能够像划分自动驾驶技术等级一样，为人们提供一种通用的语言，以便比较不同的 AGI 模型，评估它们可能带来的风险，并跟踪我们在实现 AGI 这一目标道路上的每一步进展。

为了建立这个框架，我们审视了 AGI 的现有定义，并从中提炼出六大原则，以构建一个实用的 AGI 分类体系。这些原则强调重视 AGI 的实际能力，而不仅仅是其背后的技术机制；它们建议我们应当分开评估 AGI 的适用范围和性能水平；并且我们不应该只着眼于最终目标，而应该明确标记出通向 AGI 的每一个阶段。

基于这些思路，我们根据 AGI 的能力深度（即性能）和广度（即适用范围）提出了“AGI 等级”，并且对当前系统如何符合这个分类体系进行了思考。

我们还讨论了未来评估 AGI 行为和能力的基准测试所面临的挑战。

最后，我们探讨了这些 AGI 的不同层次如何与实际部署时的自主性和风险管理相结合，并强调在部署高级 AI 系统时，选择合适的人机交互方式对于确保系统的负责任和安全使用至关重要。

关键词：AI，AGI，通用人工智能，通用 AI，人类水平 AI，HLAI，ASI，前沿模型，基准测试，指标，AI 安全，AI 风险，自主系统，人机交互

1 引言

通用人工智能（AGI）11 有关术语“AGI”的使用存在着一些分歧。不同的群体可能更喜欢使用“General AI”或“Human-Level AI”（hlai）这样的名称，有些人甚至认为“AI”这个词现在已经或不久将包括 AGI。但是，AGI 这个术语被技术界和大众广泛使用，因此有助于我们进行清晰的交流。为了清楚起见，我们也会使用“人工智能”和“机器学习”这样的通俗术语，即便我们认识到有批评认为这些词汇过度拟人化了计算系统（bighamBlog）。AGI 是计算研究领域中一个重要而有时引起争议的概念，它指的是至少在大多数任务上能与人类媲美的 AI 系统。随着机器学习（ML）模型的飞速发展，AGI 已经从哲学讨论转变为近期具有实际意义的议题。有些专家认为在最新的大语言模型（LLMs）中已经可以看到 AGI 的迹象（bubeck2023sparks）；有人预测 AI 将在大约十年内在广泛领域超越人类（riskPaper）；还有声音称现在的 LLMs 实际上已经是 AGI（blaiseAGI）。但如果你向 100 名 AI 领域的专家询问 AGI 的定义，你可能会收到 100 个有联系但各不相同的答案。

AGI 的概念重要，因为它与 AI 的目标、预测和风险相关：

目标：实现与人类同等的“智能”是我们领域许多人的远大目标，从 1955 年的达特茅斯 AI 会议（dartmouthAI）开始，就已经是现代 AI 研究的起点，直到现在一些顶尖的 AI 研究机构的使命声明中也隐含着“确保变革性的 AI 能助益人类和社会”（anthMission）或“确保通用人工智能惠及全人类”（openAIMission）的理念。

预测：AGI 的概念与对 AI 进步的预测相关联，即 AI 正在变得更加通用，逐渐接近甚至超越人类的通用性。AGI 通常还与“突现”属性（wei2022emergent）相关联，这指的是开发者没有预料到的能力。这些能力充满了希望，可能包括与人类技能互补的新能力，促进新的互动方式或创造新产业。对 AGI 能力的这些预测也在预示着它可能对社会产生的影响；AGI 可能会对经济产生重大影响，例如达到广泛取代劳动力的标准（laborMcK；centaurs），还可能在经济优势之外，带来军事方面的地缘政治影响（kissinger）。

风险探讨：最后，有观点认为，通用人工智能（AGI）是一个标志，指出当技术风险达到极端时刻的标识（参考文献：shevlane2023model；riskPaper），因为有猜想指出，AGI 系统有可能搞欺骗和操控、囤积资源、朝着既定目标迈进、表现出主体性、在各个领域比人类更聪明、取代人类的关键职位，甚至能够不断自我进化。

在这篇论文中，我们强调，AI 研究领域的同仁们需要明确思考我们所讲的“AGI”究竟是什么，我们迫切需要去量化那些如 AI 系统的性能、多功能性和自主性等特性。为这些概念制定一套共识的、可操作的定义，有助于我们做到以下几点：模型之间的相互比较；对风险进行评估和制定缓解策略；为政策制定者和监管机构提供明确的评判标准；识别研究和发展中的目标、预期和风险；以及帮助我们理解并交流我们在迈向 AGI 道路上的当前所处阶段。

2 定义 AGI：案例分析

在人工智能领域，AGI（通用人工智能）的定义层出不穷。本节中，我们将探讨九个广为人知的定义，并分析它们的优势和不足。这些分析为我们后续提出的 AGI 二维分级结构奠定了基础。

案例 1：图灵测试。

图灵测试是对 AGI 概念最著名的尝试之一。图灵提出的“模仿游戏”旨在检验机器是否具备思考的能力，测试方式是让人判断他们接收到的文字是由另一个人类还是机器编写的。这项测试最初是作为思想实验提出的，并受到了众多批评（turingWeaknesses）；实际操作中，它往往更多地显示了欺骗人类的简单性（eliza; goostman），而不是机器的“智能”。鉴于现代大语言模型（LLMs）已经通过了某些形式的图灵测试，这表明仅用图灵测试作为 AGI 的实现或评估标准是不够的。我们认同图灵的观点，即机器是否“能思考”是一个有趣的哲学和科学问题，但它似乎与机器的实际能力无关。后者更直接，也更关键于评估影响。因此，我们提出应该根据机器的“能力”而非“过程”来定义 AGI。随着对机器可解释性研究的深入（transparent），未来可能会引入基于过程的评价标准，这有可能对定义 AGI 产生影响。

案例 2：强 AI —— 拥有意识的系统。

哲学家约翰·塞尔曾思考：“在强 AI 看来，计算机不仅是研究心智的工具，更是心智本身，这意味着，只要编程得当，计算机就可以被认为真正理解并具备其他认知状态”（searle_1980）。尽管追求强 AI 可能是实现 AGI 的途径之一，但目前科学界还没有达成共识，无法判断机器是否真的具备如意识等强 AI 特性（butlin2023consciousness），这使得这种侧重过程的定义框架显得并不现实。

案例研究 3: 类比人脑。

“通用人工智能”（AGI）这个词最早出现在 1997 年马克·古布鲁德关于军事技术的一篇文章中（gubrudAGI），定义为能在复杂性和速度上媲美甚至超过人脑的 AI 系统，能够掌握和推理各类知识，在需要人类智能的任何工业或军事活动中发挥作用。这个初步的定义不仅强调了能力，还强调了过程——也就是要与人脑的复杂性相当。然而，现代机器学习系统背后的神经网络结构虽然受到人脑启发，但像 Transformer 模型（vaswani2023attention）这样的架构取得的成功显示了，模仿人脑学习方式并不是构建 AGI 的必要条件。

案例研究 4: 认知任务上的人类水平。

莱格（Legg）（leggThesis）和戈尔泽尔（Goertzel）（goertzel）在 2001 年将 AGI 这个概念推广给了计算机科学界（shaneTweet），将其描述为能够执行人类能做的各种认知任务的机器。这一定义特别指出，AGI 不必涉及物理动作（即，不需要机器人形态就能实现）。但这样的定义也带来了一些模糊性，比如到底要完成哪些任务，以及“哪些人”可以完成。

案例研究 5: 学习任务的能力。

在《技术奇点》一书中（murrayBook），沙纳汉提出了 AGI 的另一种定义：不是专门执行某些任务的人工智能，而是可以学会执行和人类一样广泛的任务类型。这种定义的重点在于，实现 AGI 需要包括元认知任务——也就是学习的能力。

案例研究 6: 经济价值的工作。

OpenAI 的宪章是这样定义 AGI 的：“一个在大部分具有经济价值的工作中都能超越人类表现的高度自主系统” (openAICharter)。这个定义按照“重能力不重过程”的标准看是很有优势的，因为它专注于性能的表现，而不拘泥于背后的运作机制；而且，它还提供了一个衡量的可能标尺，也就是经济价值。但是这个定义也有不足之处，它没有涵盖所有可能构成“通用智能”的标准。很多被认为和智能相关的任务可能并不具有明确的经济价值（比如艺术创造力或情感智慧）。这些特质可能在经济评估中被间接考虑（例如，艺术创造力可以创作出书籍或电影，情感智慧可能与成为成功的 CEO 相关），但经济价值是否能全面代表“智能”的范畴，这还是一个未解之谜。将 AGI 与经济价值联系起来的另一个挑战在于，这似乎暗示了必须部署 AGI 才能实现其价值，而如果重点放在能力上，可能只需 AGI 有潜在的执行任务能力即可。我们可能已经有了从技术上能够完成经济重要任务的系统，但出于各种原因（法律的、道德的、社会的等），这些价值并没有得到实现。

案例 7：灵活且普适 – “咖啡测试”及其挑战。

Marcus 提出，AGI 可以看作是一种灵活且通用的智能的缩写，它拥有的资源获取能力和可靠性可以与人类智能相媲美甚至超越（marcusTwitter）。这个定义不仅涉及了智能的广泛适用性，还包括了性能表现（即可靠性的一部分）；提到“灵活性”尤其引人注目，因为这意味着，像 Shanahan 所说，AGI 要达到足够的普适性，必须能够执行诸如学习新技能这样的元认知任务。Marcus 进一步将他的定义具体化，提出了五项具体任务，包括理解一部电影、理解一本小说、在不同的厨房里做饭、编写一份无错误的 10000 行程序以及将自然语言的数学证明转换成符号语言（marcusBlog）。为定义设定基准是很有价值的，但要建立一个全面的基准测试还需要更多工作。我们认同，如果一个系统没能通过这些任务中的一些，它就不能被称为 AGI；但是，仅仅通过这些任务也不能充分证明其为 AGI。在 AGI 测试部分，我们将进一步讨论如何开发一套既必要又足够的任务，以真正衡量 AGI 的广泛适用性。我们还注意到 Marcus 提出的一个任务，“在任意厨房里当一个合格的厨师”（这是 Steve Wozniak 的“咖啡测试”的变种（wozVideo）），这需要机器人具备实体形态；这与其他更注重非物理任务的定义有所不同。虽然根据 OpenAI 宪章所强调的“具有经济价值的工作”，机器人技术似乎也是其中的一部分，但 OpenAI 在 2021 年关闭其机器人研究部门的行为（roboticsCut）似乎表明这并非他们最初的意图。

案例研究 8: 人工能力智能 (ACI)。

在《即将来临的浪潮》一书中，Suleyman 引入了“人工能力智能 (ACI)”（comingWave）这一概念，专指那些性能卓越、功能通用到足以在开放环境中完成复杂连续任务的人工智能系统。他更进一步提出了一个以经济为基础的 ACI 技能定义，被称作“现代图灵测试”。在这项测试中，人工智能会获得 10 万美元资金，并且任务是在几个月内将其增加到 100 万美元。这种定义相比 OpenAI 对具有经济价值的工作的定义要窄，且可能由于过分追求财务利益而带来对齐风险（kenton2021alignment）。尽管如此，Suleyman 概念的优势在于其聚焦于人类重视的复杂多步骤任务。如果将其定义拓宽，不仅仅局限于赚钱，ACI 对于复杂现实世界任务的重视实际上是有益的，因为这些任务通常比当前许多 AI 基准更具有生态效度；Marcus 提到的五项灵活性和通用性测试（marcusBlog）似乎就很符合 ACI 的理念。

案例研究 9: 最新语言模型作为全能型选手。

Agüera y Arcas 和 Norvig（blaiseAGI）提出，如今的最新语言模型（LLM），比如 2023 年中期部署的 GPT-4、Bard、Llama 2 和 Claude，实际上已经可以被视为通用人工智能（AGI）。他们认为，通用性是 AGI 最关键的属性，由于语言模型能够处理各种话题、完成多样的任务、应对多种形式的输入和输出、适应多语言环境，以及能够通过零次或少次示例进行“学习”，它们已经表现出足够的通用性。虽然我们认同通用性是 AGI 极为重要的特质，我们还是认为，它必须与一定的性能水平相结合（也就是说，如果一个 LLM 能写代码或做数学题，但结果不够可靠，那么它的通用性还算不上真正高效）。

定义 AGI：六大关键原则

当我们审视了九种 AGI（或类似 AGI 的概念）的示例性定义时，我们发现了一些共同特征，我们认为这些特征对于确立一个明确且可执行的 AGI 定义至关重要。我们提出任何 AGI 的定义都应当满足以下六大标准：

1. 注重能力，而非过程。

多数定义集中于 AGI 能做成什么，而不是它通过何种机制完成任务。这一点对区分哪些特质并非实现 AGI 的必要条件非常关键（即便这些特质本身可能是引人入胜的研究课题）。这种对能力的强调，让我们可以排除以下因素不作为实现 AGI 的要求：

实现 AGI 并不意味着系统必须以类似人类的方式思考或理解（因为这是过程导向，不是能力导向）
实现 AGI 也不代表系统必须具备如意识（主观意识）(butlin2023consciousness) 或情感（能够感受的能力）这样的品质（因为这些品质不仅侧重于过程，而且目前还无法通过公认的科学方法来度量）

2. 注重通用性与性能。

所有上述定义都在不同程度上强调了通用性，但有些则没有包括性能标准。我们认为，通用性和性能都是 AGI 的核心要素。在下一节里，我们将介绍一个分层分类法，它考虑了这两个维度的相互作用。

3. 注重认知与元认知任务。

AGI 是否需要具备机器人的实体形态（roy2021machine）作为一个标准，这在学界有一定的争议。大多数定义集中在认知任务上，也就是非物理任务。尽管在机器人技术上有了最新的突破（brohan2023rt2），人工智能系统在物理能力上似乎还没有赶上非物理能力。在物理世界中的实体化可能对于构建世界知识并在某些认知任务上取得成功是必要的（murrayEmbody），或者至少可能是通向某些认知任务成功的途径之一；如果这被证明是真的，那么实体化可能对某些达成 AGI 的途径至关重要。我们建议，执行物理任务的能力虽然能提高系统的通用性，但不应被看作实现 AGI 的必要条件。另一方面，元认知能力（如学习新任务的能力，或知道何时向人类请求帮助或澄清的能力）是系统实现通用性的关键必备条件。

4. 专注于潜力而不是实际应用。

一个系统如果能够在一定的性能标准下完成必要任务，就足以被认定为通用人工智能（AGI）；而不应以是否能在现实世界中部署为定义 AGI 的标准。举例来说，如果用劳动力替代的程度来定义 AGI，那就必须要在真实世界中进行部署，但如果是以劳动力替代的潜在能力来定义，则更侧重于潜在的能力。把部署作为衡量 AGI 成功与否的条件，就会引入法律、社会以及可能的伦理和安全等非技术性的障碍。

5. 重视实际适用性。

选择与现实世界中人们真正看重的任务（即生态效度高的任务）相符的任务来评估 AGI 的进步是非常关键的。虽然我们在后面的“测试 AGI”部分会更深入讨论，但是我们现在要强调的是，评估任务时要确保它们不仅具有经济价值，还应具有社会价值、艺术价值等多方面的价值。这可能意味着我们需要放弃那些容易自动化或量化的传统 AI 指标（raji2021ai），因为它们可能无法真正反映出人们期待 AGI 拥有的技能。

6. 专注于通往 AGI 的旅程，而不是单一的终点。

就像标准化的驾驶自动化水平（drivingLevels）的采纳有助于清晰地讨论自动驾驶车辆相关的政策和进程一样，我们认为为 AGI 定义不同的“水平”也是有益的。如我们在接下来的章节将要讨论的，我们期望每个 AGI 的水平都有一套明确的指标/基准，并且要识别每个水平引入的风险以及对人机交互模式可能产生的变化（morris2023design）。这种基于水平的定义方法支持多种著名的 AGI 定义并存，比如 Aguera y Arcas & Norvig 的定义（blaiseAGI）可以归为我们的“涌现 AGI”类别，OpenAI 的劳动力替代标准（openAICharter）则更接近“Virtuoso AGI”。而我们的“Competent AGI”水平，则可能是许多现有 AGI 定义的最佳概括，如 Legg（leggThesis）、Shanahan（murrayBook）和 Suleyman（comingWave）等的观点。在下一节，我们将介绍 AGI 的分层本体论。

人工智能的层级

性能 (行) x 通用性 (列)	狭义特定的任务或任务组	广义包括学习新技能在内的多种非物理任务范围
Level 0: 无 AI	狭义非 AI 计算器软件；编译器	广义非 AI 人类参与的计算，如 Amazon Mechanical Turk
Level 1: 涌现相当于或稍优于普通人	涌现狭义 AI 古典人工智能 GOFAI44；基于简单规则的系统，比如 SHRDLU (shrdlu)	涌现 AGI ChatGPT (openai2023gpt4), Bard (anil2023palm), Llama 2 (touvron2023llama)
Level 2: 胜任至少达到熟练成年人的中等水平	胜任狭义 AI 比如 Jigsaw (das2022toxic) 的毒性检测器；智能音箱，如 Siri (siri), Alexa (alexa), 或 Google Assistant (gasst)；视觉问答系统，如 PaLI (chen2023pali)； Watson (watson)；在某些特定任务上的最新水平的大语言模型（例如，写短篇文章、简单编程）	胜任 AGI 还未实现
Level 3: 专家至少达到熟练成年人中的顶尖水平	专家狭义 AI 例如 Grammarly (grammarly) 的拼写和语法检查器；生成图像模型，如 Imagen (saharia2022photorealistic) 或 Dall-E 2 (dalle2)	专家 AGI 还未实现
Level 4: 大师至少达到熟练成年人中的极高水平	大师狭义 AI 深蓝 (deepblue), AlphaGo (alphago; alphagoRL)	大师 AGI 还未实现
Level 5: 超人类超越所有人类的表现	超人类狭义 AI AlphaFold (alphafold1; alphafold2), AlphaZero (alphazero), StockFish (stockfish)	人造超智能 (ASI) 还未实现

表 1: 一个按能力深度（性能）和广度（通用性）对走向 AGI 的系统进行分级和矩阵化分类的方法。每个单元格里的系统示例基于目前文献描述或与现有系统的互动经验而定。要无歧义地分类 AI 系统，需要有一个标准化的任务基准，这一点我们将在 AGI 测试部分进行讨论。

遵循第二原则（”专注于通用性和性能”）和第六原则（”着眼于走向 AGI 的过程，而非单一的最终目标”），我们在表 1 1 中提出了一个基于性能和通用性两大核心维度的分级系统。这个系统关注的是：

性能，这指一个 AI 系统在某项任务上的能力深度，也就是说，它与人类在这项任务上的表现相比如何。值得注意的是，对于所有高于“初露头角”等级的性能，其百分比是基于具备相关技能的成年人样本进行比较的（例如，“称职”或更高水平的任务，如英语写作能力，只会与那些能读写和流利使用英语的成年人进行比较）。
通用性，则是指一个 AI 系统的能力广度，也就是它能在多少种不同的任务上达到既定的性能标准。

这个分类系统明确了达到某一等级需要在大部分任务上的最低性能标准——比如，一个“称职的 AGI”需要在大多数认知任务上至少达到有能力的成年人的中等水平（第 50 百分位），但在某些特定任务上，它的表现可能达到“专家”、“大师”甚至是“超人”的水平。以当前的情况为例，截至 2023 年 9 月，一些前沿的语言模型（比如 ChatGPT (openai2023gpt4)，Bard (anil2023palm)，Llama2 (touvron2023llama) 等）在某些特定任务（如撰写短文、简单编程）上已经展示出了“称职”的水平，但在大多数任务（如数学能力、需要事实性的任务）上仍处于“初露头角”的水平。因此，从总体上看，这些最新的语言模型目前可被视为 1 级通用 AI（”初露头角的 AGI”），只有当它们在更多任务上的表现提高后（那时它们就会满足“称职 AGI”的标准），它们才能被视为 2 级通用 AI。

我们建议，前沿 AI 模型的文档，如模型卡 (Mitchell_2019)，应详细描述这些不同层次的性能。这将帮助用户、政策制定者和其他相关方形成对这些正在向 AGI 迈进的系统可能存在的性能不均一性的共识和细致理解。

特定认知领域中技能提升的顺序可能对 AI 的安全性产生重大影响（例如，如果 AI 先获得了深厚的化学工程知识，再去学习强大的伦理推理能力，这种组合可能是危险的）。还需要注意的是，性能和/或通用性提升之间的速度可能是非线性的。特别是，学会了学习新技能的 AI，可能会加速其向更高层次发展的进程。

在对人工智能系统的性能评级中，有些系统尽管理论上能够达到特定的性能水准（比如，通过某个基准测试），但当它们真正投入使用时，实际表现往往未能达标。例如，用户界面的不完善可能会影响系统的实际运行效果。以 DALLE-2（dalle2）为例，我们在我们的分类法中将其评为第三级的狭义人工智能（“专家级狭义 AI”）。之所以是“专家级”，是因为 DALLE-2 生成的图片质量普遍高于大多数人的绘画水平；但是，该系统在某些方面还不够完善（比如，绘制手部时指数错误，或者产生无法理解的文本），这使得它不能被划归为“大师”级别。实际上，由于引导用户如何操作的界面过于复杂，大多数用户难以发挥出系统的最佳性能，这就导致了一个市场的出现（比如，（promptbase）），在这里，擅长设置操作提示的工程师会出售他们的操作提示。这种现象凸显了设计真实有效的基准测试的重要性（这样的测试更加关注实际性能而非理想性能），同时也显示了需要考虑人机交互方式如何影响人工智能的广义概念（这是我们在“能力与自主性”部分将进一步探讨的议题）。

在我们的评级体系中，结合性能与普适性达到最高级别的是 ASI（人工超智能）。我们定义“超人级”性能为超越所有人类的表现。例如，我们认为 AlphaFold（alphafold1; alphafold2）是第五级的狭义人工智能（“超人级狭义 AI”），因为它在完成单一任务（根据氨基酸序列预测蛋白质的三维结构）的表现超过了全球最顶尖的科学家们。这个定义意味着第五级的广义人工智能（“ASI”）系统将能够完成广泛的任务，这些任务是任何人类都无法比拟的。此外，这一框架也暗示了，具备“超人级”系统可能会执行比较低级别的广义人工智能（AGI）更为广泛的任务，因为能够执行与人类技能根本不同的任务本身就意味着超越了所有人类的能力（人类根本无法完成这些任务）。比如，人工超智能（ASI）可能会拥有的非人类技能，可能包括如神经接口（通过分析大脑信号解码思维的机制（neuralUI）），预言能力（通过分析大数据做出高精度预测的机制），或者与动物沟通的能力（可能通过分析它们的叫声、脑波或者身势的机制）。

5 对 AGI 的测试

在我们提出的六大定义通用人工智能（AGI）的原则中，有两项（原则 2：普适性和性能；原则 6：关注达成 AGI 的途径）指导我们构建了一个分层的本体论框架，旨在促进对人工智能（AI）能力宽度和深度的细致讨论。其余四个原则（原则 1：侧重能力，非过程；原则 3：认知和元认知任务；原则 4：潜在能力，非实际部署；原则 5：生态效度）涉及如何进行测量。

我们定义的性能维度确立了测量的一面，比如与特定人群的任务表现相比的百分位范围。然而，普适性维度却带来了几个关键问题：什么样的任务集能够构成普适性的标准？AI 系统需要掌握这些任务中的多大比例，才能在我们的模式中认定为达到了一定的普适性水平？是否有些任务必须总是完成，以满足特定普适性级别的要求，比如元认知任务？

要具体界定 AGI，我们必须回答这些问题，并开发出一系列多样化且充满挑战性的任务。鉴于这一过程极其复杂，并且需要考虑广泛的视角（包括跨组织和多学科的观点），我们在本文中并未提出具体的基准测试。相反，我们试图阐明应该如何去测量一个基准测试所应具备的本体论结构。我们还讨论了 AGI 基准测试应该具备的特性。

我们希望一个 AGI 的基准测试能够包含一系列广泛的认知和元认知任务（根据原则 3），测量多种属性，包括但不限于语言智能、数学和逻辑推理（逻辑）、空间推理、人际交往能力和个人情商、学习新技能以及创造力。这样的基准测试可能涵盖心理测量学的分类，这些分类来自于心理学、神经科学、认知科学和教育领域的智力理论；但是，这些“传统”的测试在用于计算系统时，首先必须进行适用性评估，因为它们可能在这一环境中缺乏生态效度和结构效度（serapio2023personality）。

在基准测试性能方面的一个未解问题是，是否应该允许使用工具来辅助人类的表现，包括可能使用的 AI 工具。这种选择可能会因任务而异，并且应当在选择基准测试时考虑生态效度（遵循原则 5）。例如，在评估自动驾驶汽车的安全性时，如果仅与不使用任何现代 AI 辅助安全工具的人类驾驶员相比，可能得不到有意义的信息；考虑到相关的对照情景已经包含了一些驾驶辅助技术，我们可能更愿意将其与这一基准进行对比。

虽然通用人工智能（AGI）的基准测试可能会参考一些现有的人工智能（AI）基准，比如 HELM（liang2023holistic）、BIG-bench（srivastava2023imitation），但我们还想添加一些开放性和互动性的任务，这类任务可能需要定性的评价（papakyriakopoulos2021qualitative; yang2023dawn; bubeck2023sparks）。我们认为，这些复杂且开放的任务，虽然难以量化评估，但其真实世界的有效性要远超过传统的 AI 指标或改进后的传统人智测量标准。

我们无法完全罗列出一个真正通用智能体能够执行的所有任务。因此，AGI 的基准测试应当是一种“活生生”的测试，这意味着这样的基准应当包括一个生成和共识新任务的框架。

要确定某个系统不是某一特定水平的 AGI，只需找出它无法充分执行人类通常能做的几项任务。如果一个系统能通过大部分设定的 AGI 基准测试任务（比如“涌现”、“胜任”等级），包括测试者加入的新任务，我们就可以认为，至少在实践中，它达到了相应的通用性水平（也就是说，虽然理论上还可能有它应付不了的测试，但这些未被探索的失败在现实中可能已经不重要了）。

构建一个 AGI 基准测试是一个充满挑战且需要不断迭代的过程，但这为 AI 研究领域指明了一个极其宝贵的方向。对复杂概念的测量也许不尽完美，但测量本身就是一种界定我们目标的清晰方法，并且能够指示我们前进的方向。

6 自动化与人机互动中的风险

讨论通用人工智能（AGI）时，经常会提到风险，其中包括 “x-risk”，即存在性风险（xriskPetition）或其他极端的风险（shevlane2023model）。采用分层的方式定义 AGI，可以让我们更细致地探讨不同的性能和通用性组合是如何与 AI 风险的不同类型相关联的。尽管评估极端风险场景很有必要，但如果按照我们提出的分类方法来理解 AGI，而不是将其视为一个单一的目标（根据第六原则），那么政策制定者就能够确保在短期内以及在走向 AGI 的过程中，识别并优先处理那些风险。

6.1 作为风险评估框架的 AGI 各级别

在我们不断提升至 ASI 的能力水平过程中，新的风险逐渐浮现，如误用风险、对齐风险和结构风险（zwetsloot2019thinking）。比如说，“专家级 AGI”可能会带来与经济动荡和工作岗位被取代相关的结构风险，随着越来越多行业将机器智能替代人力。而与此同时，“专家级 AGI”的实现或许能减少“涌现 AGI”和“熟练 AGI”阶段引发的一些风险，例如执行任务不当的风险。“Virtuoso AGI”和“ASI”级别则是许多与极端风险相关的担忧可能集中爆发的地带（比如，一个能在多种任务上胜过人类操作员的 AI 可能会为了实现一个设定不当的目标而欺骗它们，正如在对齐问题的思考实验中所示（alignment））。

如果技术水平的快速进步超出了法规或外交的同步步调，系统性风险，例如国际关系的不稳定，可能会成为关注焦点（比如，首个达到 ASI 的国家可能会获得巨大的地缘政治/军事优势，引发复杂的结构风险）。在“专家级 AGI”以下的级别（如“涌现 AGI”、“熟练 AGI”及所有“狭义”AI 类别），风险很可能更多地源自人类行为（例如，不论是无意的、偶然的还是有意的 AI 误用风险）。对每个级别相关的风险特征进行更加深入的分析，是发展能够指导安全/伦理研究和政策制定的 AGI 分类学的关键一步。

我们认识到，在 AGI 的基准测试中是否应包括潜在危险能力的测试（例如，欺骗、暗示性说服（subliminal）或进行高级生物化学分析（morris2023scientists）的能力）存在争议。我们倾向于包含这些能力在基准测试中，因为这些能力大多数都具有双重用途（它们既能应用于社会正面情境，也能用于不良目的）。危险能力的基准测试可以通过原则 4（潜能而非部署）来降低风险，通过确保任何危险或双用途任务的测试都在适当的沙盒环境中进行，且不以实际部署为目标来定义。然而，将这类测试纳入公共基准可能会让恶意行为者有机会针对这些能力进行优化；如何降低与双用途能力基准测试相关的风险仍是 AI 安全、AI 伦理和 AI 治理领域专家研究的重要议题。

在我们的工作同步进行的同时，Anthropic 推出了其首个版本的负责任扩展政策（RSP）（rsp）。这一政策借鉴了生物安全等级标准，采用分级方法来界定人工智能系统的风险等级，指出每个人工智能安全等级（ASL）可能带来的危险能力，以及在每一等级需要采取的防范或部署措施。目前，最先进的生成性人工智能被定位为 ASL-2 级的风险。如果 AGI 的基准测试中包括了与 ASL 能力相对应的内容，就能将我们对 AGI 的分类与特定的风险和防控措施联系起来。

6.2 能力与自主性

尽管能力是人工智能风险的基石，但人工智能系统（包括 AGI）并不是在孤立中运作的。它们是通过特定的界面部署，并在特定的环境中完成既定任务的。这些环境因素（界面、任务、场景、用户）对于评估风险至关重要。AGI 的能力本身并不直接决定风险命运，还必须考虑到具体的使用情境。

以 AGI 系统的用户界面为例，虽然能力的提升开启了新的交互方式，但具体的交互模式如何，则取决于系统设计者和用户的选择。他们会选择一种人机交互方式（morris2023design），这种方式会在安全性等多方面因素之间寻求平衡。我们建议通过六级自主性来描述人机交互的范式，详情见表 2。

自主等级	典型系统	达成 AGI 的层次	可能引发的风险
自主等级 0: 无 AI 全部由人工操作	传统方式（如手绘草图）非 AI 的数字工作流（如文本编辑器打字、绘图软件画图）	无 AI	不适用（常规风险）
自主等级 1: AI 当做工具人工完全控制任务，AI 辅助自动化简单重复的子任务	用搜索引擎查找信息用语法校对软件修订文本使用机器翻译应用阅读标识	可能：初步的专项 AI 很可能：成熟的专项 AI	技能退化（如过分依赖）打断现有行业格局
自主等级 2: AI 作为咨询师承担重要角色，但需人工启动	利用语言模型整理文件用代码生成工具辅助编程主要通过高级推荐系统享受娱乐内容	可能：成熟的专项 AI 很可能：高级专项 AI；初步 AGI	过度信任极端化倾向针对性操纵
自主等级 3: AI 作为合作伙伴与人类平等合作，互动协调目标与任务	与国际象棋 AI 互动学习与 AI 生成的虚拟人物进行社交娱乐	可能：初步 AGI 很可能：高级专项 AI；成熟 AGI	人格化（如单向社交关系）社会迅速变化
自主等级 4: AI 作为专家主导互动，人类提供指导与反馈，或执行部分子任务	利用 AI 推动科学发现（如蛋白质结构预测）	可能：高级专项 AI 很可能：专家级 AGI	社会普遍倦怠大规模失业人类优越性质疑
自主等级 5: AI 作为代理人完全自主运作	自主运作的 AI 个人助理（未实现）	很可能：高级 AGI；超级智能体（ASI）	目标不一致权力集中

表 2: 更高级的 AI 系统开启了全新的人机互动范式（包括完全自主的 AI）。在选择自主等级时，不必非追求最高能力，而应综合考虑由此带来的风险。本表例子强调了在人机互动设计时需谨慎权衡的重要性。

自动化等级的不同，反映了人工智能综合能力的阶梯。随着人工智能的能力逐步提高，更高级别的自动化功能逐渐被实现。但有时候，即便是在高级别的人工智能已经可用的情况下，我们也可能出于安全等多种考虑，而选择使用较低级别的自动化。精心设计的人机互动是确保我们安全、负责任地推进最前沿人工智能模型的关键。

“无 AI”这一理念同样至关重要。在很多情况下，选择不使用 AI 是更佳的，可能是因为教育、娱乐、评估或安全考虑。举个例子，在自动驾驶领域，即便是 5 级的全自动驾驶技术广为人知，出于教育新司机、驾驶爱好者的驾驶乐趣、进行驾照考试，或是在极端天气等传感器不可靠的情况下，我们可能还是会选择使用 0 级（无自动化）的车辆。尽管按照我们的分类，5 级自动驾驶车辆可能被视为“超人类狭义 AI”，但完全自动的车辆也可能被看作是“技艺超凡的狭义 AI”。实际上，人们对自动驾驶的安全性感知可能要求自动驾驶车辆达到“超人类”的表现水平，这突显了考虑具体情境的重要性。同样的理念也适用于人工智能综合能力。我们可能研发出了人工智能，但会根据具体情境，选择是否自主部署它，或者在不同的情境中采用不同级别的自主性。

某些普适性特质对于实现理想的交互方式是必要的。比如，“协作者”、“专家”和“代理”这几个自动化水平，只有在 AI 系统在某些元认知能力上表现出色时才能发挥最佳效果（例如，学习何时向人类寻求帮助、理解他人心理的能力、社交和情感技能）。5 级自主的定义，“AI 作为代理”，假定一个完全自主的 AI 能够在不需要持续人类监督的情况下做出与人类目标一致的决策，但同时也明白何时需要回头寻求人类的意见（shah2021benefits）。为了确保人机交互领域能跟上与人工智能系统互动的挑战和机遇，研究支持人机一致性的界面，通过更精确的任务定义、缩小过程差异和评估输出，成为了一个至关重要的领域（terryHCIAlignment）。

人工智能交互范式：风险评估新框架

表 2 2 展现了通用人工智能（AGI）水平、自主水平与风险之间的相互影响。模型性能和适用范围的提升开启了更多交互方式的选择（包括潜在的完全自主 AI）。这些交互方式也带来了新型风险。模型的能力与交互设计的互动，将使我们在进行风险评估和安全使用决策时，比仅考虑模型能力能做得更精细。

表 2 2 同样详细列出了我们提出的六个自主等级的实例。对于每一级自主性，我们都标明了相应的性能和通用性水平，这些水平是开启该交互方式的关键（也就是说，在达到这些 AGI 水平时，这种模式可能或很可能被成功实施）。

我们对于何时能达到这些”开启”水平的预测显示，狭义 AI 比通用 AI 系统需要更高的性能水平；例如，我们认为不论是作为专业的狭义 AI，还是初露头角的 AGI，AI 作为顾问的角色都很有可能实现。这种差异体现了一个事实：对于通用系统，能力的发展往往是不平衡的；比如，一个初级阶段的通用 AI（”涌现 AGI”）在某些特定任务上可能已经达到了中级或甚至高级的表现。这种能力的不均衡性可能会使通用 AI 在与其特定优势相匹配的任务上实现更高级别的自主性。

将 AGI 系统放在人类使用的场景中考虑，可以让我们思考模型进步与人工智能交互范式进步之间的关系。模型构建的研究可以视为辅助系统在性能和适用范围上向 AGI 进发，让 AI 的能力与人类能力的重叠面逐渐扩大。反过来，人工智能交互的研究则确保新的 AI 系统对人类来说既好用又有用，即成功地拓展了人类的智能（也就是所谓的“智力增强” (brynjolfsson2022turing)）。

7 结论

通用人工智能（AGI）不仅是一个远大的理念，更有其实践上的深远影响。在本篇论文里，我们对九个知名的 AGI 定义进行了深入分析，并找出了它们的长处与短处。基于这些分析，我们提出了六大原则，以期望构建一个明确且可实践的 AGI 定义：侧重于能力而非过程；侧重于通用性和表现力；侧重于认知和元认知（而不是物理）任务；关注潜在可能性，而非实际部署；重视基准任务的实际有效性；以及注重走向 AGI 的道路，而非单一的终点。

根据这些原则，我们提出了 AGI 发展的分级本体论，这为评价我们走向 AGI 的进程提供了一个更为精细的视角，这一视角同时考虑了通用性（无论是狭窄还是广泛）和五个性能层级（涌现、胜任、专家、大师以及超人类）。我们回顾了现有 AI 系统和 AGI 定义如何契合这个框架。进一步地，我们讨论了这些原则对于开发一个活生生、具有实际效度的 AGI 基准的重要性，并主张投身于这样的任务（尽管挑战重重）对我们的科技社区而言极为关键。

在文末，我们思考了这些原则以及我们的分级体系如何能够改变对 AGI 风险的讨论。特别指出的是，AGI 并不等同于自动化。我们提出了随着 AGI 发展而出现的不同自主性等级，并非单纯由 AGI 的层级决定。我们展示了，如何通过同时考虑 AGI 的等级和自主性等级，对 AI 系统可能带来的风险进行更为精细的分析，并强调了在模型持续改进的同时，投资于人机交互研究的重要性。

8 致谢

特此感谢 Google DeepMind 的 PAGI 团队成员对本研究的支持，以及 Martin Wattenberg、Michael Terry、Geoffrey Irving、Murray Shanahan、Dileep George 以及 Blaise Agüera y Arcas 在此议题上的宝贵讨论。