近日,YouTube 科技频道 Fully Buffered 完成了一项极具震撼力的硬核测试:在奔腾 4 641 处理器(发布于 2006 年)上,成功运行了 Meta 最新Llama 3.2 3B 大模型。

这场实验让现代人工智能技术与二十年前的古董硬件展开了一场硬核对话。它不仅揭开了大语言模型运行兼容性的底牌,更在网络上引发感叹:原来摩尔定律的飞驰,竟能通过这种方式,在相隔二十年的两代技术之间架起一座奇妙的桥梁。

硬件“考古”:极致配置跑通现代算力

为了这场测试,Fully Buffered 团队还原了 2006 年主流发烧友的硬件天花板

  • 这次测试的核心,是一颗 Intel 奔腾 4 641 处理器。它的主频为 3.2GHz,采用单核设计,并配备了 2MB 的二级缓存。

  • 内存阵列: 华硕 P5WDH Deluxe 主板搭配 4 条 2GB DDR2-800 内存,总容量达到 8GB。

  • 软件方面,团队面临一个挑战:老旧的 CPU 架构并不支持现代的 AVX2 指令集。为此,他们特别搭建了一套运行在 No-AVX 模式下的推理环境。

慢动作推理:每秒 0.21 Token 的“长征”

测试过程中,当系统向 Llama 3.2 3B 抛出问题“What’s a Pentium 4?”时,这颗 20 年前的单核处理器立刻进入了“巅峰负荷”状态。

  • 生成效率: 最终的生成速度仅为 0.21 Token/秒

  • 时间代价相当高昂:为了让这颗老芯片给出一个完整的回答,它需要持续满负荷工作将近 33 分钟。

在现代 AI 应用追求“毫秒级”响应的今天,33 分钟的等待无疑是“崩溃级”体验,但对于这颗诞生于 NetBurst 架构时代的处理器而言,这却是 AI 原理在古老硅片上一次跨越 20 年的“逻辑长跑”。

意义超越实用:证明了 AI 的兼容极限

测试团队坦言,选用如此古老的设备运行 AI 并非出于实用目的。他们的目标,是验证两个关键的技术边界:

  1. No-AVX 指令集的生存空间: 现代大模型几乎都默认要求 AVX 指令集,但通过特定的推理模式,即使没有这些指令集,AI 依然能完成推理。

  2. 内存是关键基石:一个拥有 30 亿参数(3B)的模型,其体积刚好能被 8GB 的 DDR2 内存容纳。这证明了一个事实——只要内存空间足够,即便 CPU 算力极低且仅为单核,也足以支撑起现代大语言模型的基本运行,而并非必须依赖顶级的 GPU 算力。

尾声:NetBurst 架构的“AI 晚年”

2006 年,Intel 奔腾 4 还在主频竞赛的狂热中执着于追求“高主频低效能”的 NetBurst 架构,当年的工程师们或许预见到未来会是处理器的时代,但恐怕做梦也想不到,他们设计的架构能在 20 年后以如此艰难的方式,理解并阐述自己的历史。

这次极限测试为 AI 硬件生态提供了一个极具参考价值的极端案例。它揭示出:虽然算力直接决定了模型的响应速度,但指令集的兼容性与充足的内存保障,才是支撑大模型运行的底层生命线。当奔腾 4 最终在屏幕上,以极其缓慢的速度“敲”出对自身的描述时,这不仅是一次成功的推理,更可以看作是计算机科学史上,一场充满技术浪漫的告别演出。