大语言模型能取代编译器吗？ [译]

别抱太高期望

我和 Kevlin Henney 最近讨论了一个问题：将来的自动代码生成工具，比如升级版的 GitHub Copilot，是否有可能取代现有的高级编程语言。我们具体想知道的是，ChatGPT N（N 很大）是否能跳过用高级语言编写代码的步骤，直接生成像今天的编译器那样的可执行机器代码？

这个问题并不仅仅是理论上的。随着编程助手越来越精准，它们很可能不再仅仅是助手，而是开始承担起编写代码的重任。这对程序员来说将是一场革命，尽管编程只是他们工作的一小部分。现在，类似的情况已经开始出现了：比如 ChatGPT 4 能够在 Python 中自动生成代码，还能在一个沙盒环境中运行代码，收集错误信息，并尝试调试。谷歌的 Bard 也有类似功能。虽然 Python 是一种解释型语言，不产生机器代码，但这种自动生成和测试代码的过程完全可以应用到 C 或 C++ 这样的编译型语言上。

这种变化其实并不新鲜：在计算机的早期，程序员是通过插拔电线和输入二进制数字来“编写”程序的，后来才使用汇编语言和（在 20 世纪 50 年代末）如 COBOL（1959 年）和 FORTRAN（1957 年）这样的早期编程语言。对于那些习惯用电路图和开关编程的人来说，这些早期的编程语言简直是革命性的。COBOL 甚至被设计成像写英语那样简单。

Kevlin 强调，高级语言是一种我们暂时还无法替代的“决定性知识库”。虽然这个词听起来有点怪异，但它的重要性不容小觑。在编程的历史上，总有一些这样的知识库存在。以前，当程序员使用汇编语言时，他们需要直接查看二进制代码，以了解计算机的具体操作。而在使用 FORTRAN 或 C 语言时，这种知识库就提升到了更高层次：源代码表达了程序员的意图，而编译器负责将其转化为正确的机器指令。不过，这种知识库的地位一直不太稳定。早期的编译器并不总是可靠的，尤其是在优化代码时更是如此（难道说优化编译器是 AI 的前身？）。而且，代码的可移植性也是个大问题：每个硬件制造商都有自己独特的编译器，带有各自的特性和扩展。在面对程序运行失败的问题时，汇编语言常常是最后的求助手段。这种决定性知识库的有效性通常局限于特定的供应商、计算机和操作系统。为了使高级语言在不同的计算平台上都表现出一致的行为，推动了语言标准和规范的发展。

如今，掌握汇编语言（assembler）的人已经寥寥无几。你只在编写设备驱动程序（device drivers）或与操作系统内核（operating system kernel）的某些复杂部分打交道时才需要它。尽管编程方式已经发生了变化，但编程的结构依旧没变。特别是在使用 ChatGPT 和 Bard 这样的工具时，我们仍然需要一个确定性的知识源，但这个源头已经不再是汇编语言了。无论是使用 C 语言还是 Python，你都可以通过阅读代码来准确理解程序的功能。如果程序表现出意外的行为，这很可能是因为你对语言规范的某个细节理解有误，而不是编译器或解释器的问题。这一点至关重要，因为它是我们能够成功调试程序的基础。源代码以一种合理的抽象层次告诉我们计算机在做什么。如果程序未按预期运行，我们可以分析并修改代码。这可能需要你重新研读 Kernighan 和 Ritchie 的著作，但这是一个已被广泛理解并可控的问题。现在，我们不必再深入研究机器语言了——这实在是件好事，因为随着指令重排序（instruction reordering）、推测执行（speculative execution）和长管线（long pipelines）的出现，理解机器级别的程序比 20 世纪 60、70 年代要复杂得多。我们需要这种抽象层。但这个抽象层也必须是确定性的，即完全可预测和每次编译运行时行为一致。

那么，为什么抽象层必须是确定性的呢？因为我们需要确切知道软件的具体功能。无论是 AI 还是其他计算任务，它们都依赖于计算机能够可靠且反复地执行操作，无论是百万次、十亿次还是万亿次。如果你不确定软件会做什么，或者每次编译时它的行为都可能不同，那么你就无法以此为基础来构建业务。更不用说维护、扩展或增加新功能了，如果每次接触它都会改变，你也无法对其进行有效的调试。

自动化代码生成尚未达到我们对传统编程所期望的可靠性水平。Simon Willison 将这称为“基于感觉的开发”（vibes-based development）。目前，我们还是依靠人工来测试和修正代码中的错误。更重要的是，在开发过程中，你可能需要多次生成代码才能找到解决方案；你不太可能仅凭第一次的提示结果就直接进入调试阶段，就像你不可能一次就用 Python 写出一个完美的复杂程序一样。为一个重要的软件系统编写提示是一项挑战，这些提示往往非常长，需要多次尝试才能得到正确的结果。使用当前的模型，每次生成代码，你都可能得到不同的结果。Bard 甚至提供了几种不同的选择。这个过程并不可重复。如果每次生成和测试的程序都不一样，你怎么理解程序在做什么？如果下一个版本的程序可能与前一个完全不同，你如何判断自己是否在向着解决方案前进？

我们可能会认为，通过将 GPT-4 的“温度”设置为 0，可以控制其回应的变化；这里的“温度”指的是回应之间的变化度（或创新性、不可预测性）。但事实并非如此简单。温度调节只在一定范围内有效，其一限制是提示必须保持一致。如果改变提示以帮助 AI 生成正确或设计精良的代码，就超出了这个范围。另一个限制是模型本身不能更改——但实际上，模型一直在变化，且这些变化超出了程序员的控制范围。所有模型终将更新，而更新后的模型可能生成完全不同的代码。这意味着即使更新了模型，也无法保证生成的代码保持一致。新的模型可能会产生全新的源代码，这些代码需要根据其特性独立理解和调试。

因此，自然语言提示不能成为确保程序确定性的依据。这并不意味着 AI 生成的代码无用；它可以作为一个良好的起点。但在某个阶段，程序员需要能够重现和分析错误：这就是需要可重复性并不能接受意外的时刻。在这一点上，程序员应避免再次从自然语言提示中生成高层次代码。AI 在这里仅起草初稿的作用，这可能比从零开始节省了一些努力。从版本 1.0 升级到 2.0 同样面临类似的挑战。即便是最大的上下文窗口也无法包含整个软件系统，因此必须逐个文件地进行工作——这和我们目前的工作方式相似，但区别在于源代码成为了确定性的关键。

此外，对于语言模型来说，区分哪些部分可以更改、哪些部分应保持不变是一个挑战。比如指令“仅修改这个循环，但不要改变文件的其他部分”可能有效，也可能无效。

这种情况并不适用于像 GitHub Copilot 这样的编程助手。Copilot 的名称恰如其分：它是飞行员的助手，而非飞行员本人。你可以精确地指示 Copilot 完成特定的任务和位置。而当你使用 ChatGPT 或 Bard 来编写代码时，你的角色不是飞行员或副驾驶，而是乘客。你可以指示飞行员将你飞往纽约，但从那一刻起，飞行员就掌控了一切。

那么，生成式 AI（Generative AI）是否会变得足够优秀，以至于能够跳过高级语言直接生成机器代码？一个提示是否可以替代高级语言中的代码？我们已经看到了包含提示库的工具生态系统的出现，而且这些库无疑也包含了版本控制功能。生成式 AI 最终可能会取代日常脚本编程语言，如“从这个电子表格的两列生成图表”。但对于更大型的编程项目来说，需要记住的是，人类语言的价值在于其模糊性，而编程语言之所以有价值，正是因为其明确无误。随着生成式 AI 更深入地渗透到编程领域，我们可能会看到人类语言的风格化方言出现，这些方言具有更明确的语义；这些方言甚至可能成为标准化并得到文档化。但所谓的“具有更明确语义的风格化方言”实际上就是提示工程的另一种说法。如果你想对结果进行精确控制，提示工程并非易事。我们仍然需要一个确定性的存储库，在编程堆栈中一个不会出现意外的层次，一个在代码执行时能够明确告知计算机将执行什么操作的层次。至少目前来看，生成式 AI 还无法承担这一任务。

注脚

如果你在 1980 年代就活跃于计算机行业，你可能会记得有过“逐一重现 VAX/VMS FORTRAN 的错误行为”的需求。

大语言模型能取代编译器吗？ [译]

发表评价取消回复

最近更新

ReSyncer – 清华联合百度推出的AI视频编辑工具

MotionClone – 文本驱动的AI视频动作克隆框架

Mini-Monkey – 华科联合华南理工推出的多模态AI模型

MDT-A2G – 复旦&腾讯优图推出的AI模型，可根据语音同步生成手势

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复