詹姆斯·戈夫纳的 MONKCHIPS
Cloudflare 作为 AI 领域的新动向:与 CEO Matthew Prince 的专访
作者:James Governor | @monkchips | 2023 年 7 月 17 日
在我们关注行业中产品管理表现出色的公司时,Cloudflare 显然不容小觑。该公司不断推出新功能,不仅增强了其在现有领域的实力,还开拓了新的市场。Cloudflare 不仅在网络性能和安全领域树立了独特的品牌形象,现在还在普通应用程序开发的边缘计算服务领域展开布局,这使其与云计算巨头的竞争更加激烈。
我最近在伦敦采访了 Cloudflare 的首席执行官 Matthew Prince,我们讨论了人工智能、边缘计算和开发者体验 (DX) 等领域的最新趋势。他提到了一些颇具洞见的点——例如,他指出,由于 GPU 短缺,AI 公司现在更加倾向于多云解决方案。因为随着技术拓扑结构变得越来越复杂,AI 问题已经演变成了一个分布式计算和网络的挑战。
基于我们的讨论,我将撰写几篇文章。和目前科技界的大多数讨论一样,我们的对话从生成式 AI 的话题开始,并探讨了这一领域如何改变了所有人的规划。Prince 表示,他之前对 AI 有些保留态度,因为 Cloudflare 自 2010 年成立以来就一直在利用机器学习模型预测安全威胁。
我曾说 Cloudflare 是一家 AI 公司,但常常遭遇怀疑的眼光,因此我也学会了对声称自己是 AI 公司的其他企业持怀疑态度。
但在今年 Cloudflare 的内部讨论中,他们意识到,由 ChatGPT 领衔的新一代大语言模型 (LLMs) 确实改变了游戏规则。
Prince 指出,Cloudflare 在 AI 方面主要关注五大领域。
首先,Cloudflare 从一开始就是一家 AI 公司,这在十年前部分成立。而今天,这一点变得更加确凿。我们正在利用 AI 更有效地防御安全威胁。例如,去年 Cloudflare 的一个自动化系统发现了之前未被人类识别的安全威胁。这已经不再是个别事件,而是成为了日常。虽然误报率仍然较高,需要人工干预,但这无疑为 Cloudflare 带来了革命性的变革。
我们注意到,越来越多的 AI 公司因为业务成本极高而开始重视安全问题。具体成本取决于使用的生成式 AI (Generative AI) 系统,但据估计,每次查询的成本可能高达 25 美分。例如,如果有人发送大量查询来生成一百万个独特的电子邮件地址,这对于一家初创公司来说,可能意味着高达 25,000 美元的开支。
Prince 指出,包括 OpenAI 在内的公司已经开始采用 Cloudflare 的挑战系统进行机器人管理,以防止这种高昂的成本。
我们在开发者体验方面也在运用 AI 技术。对于我们这样一个新兴的开发平台,它有自己独到的视角,但对开发者来说,一开始什么都没有,只有一个空白屏幕,这可能很难应对。因此,我们利用 AI 来帮助有经验的开发者解决初始阶段的难题,并拓宽可以在 Cloudflare 上编程的人群。
因此,Cloudflare 最近推出了 Cursor,这是一个类似于“GitHub Copilot”的 AI 开发者助手,它从提供 AI 辅助文档开始。目前,Cursor 还处于实验阶段,但我们预计不久将会有重大改进。正如我之前提到的,Cloudflare 在迭代改进方面非常专注。
第四个领域 – 这对我来说意外之喜 – 我们认为 Cloudflare 并不适合进行模型训练。模型训练需要大量机器紧密排列,需要使用最新最强的 GPU。我们有很多机器和 GPU,但它们分布得太广了。模型构建更适合传统的超大型计算公司来做。
然而,意想不到的是,全球范围内 GPU 极为稀缺。作为 AI 公司,寻找足够的计算能力和尽可能廉价的 GPU 容量成了重要任务。这些公司有巨大的训练集和模型,他们以前的做法是在不同的云服务和地区复制训练集,以便在 GPU 空闲或价格低时立即使用。这种做法极其浪费资源。让我吃惊的是,目前我们对象存储 R2 增长最快的用户是 AI 公司。他们选择在 R2 存储训练集的单一副本,而不是在每个云服务和地区都存储多份副本。
由于 Cloudflare 不收取数据出口费,将这些模型导入任何能找到 GPU 容量的云服务变得容易。所以,虽然我们在模型训练中没有直接作用,但我们在很多生成式 AI 公司的训练中扮演了间接而关键的角色。只要 GPU 仍然稀缺,其他大型公共云服务继续收取数据出口费,我们就面临着有趣的机遇。
在多云环境中追逐最便宜的云容量,即所谓的套利策略,原本是多云支持者的一个不良主张。云服务并非单纯的计算资源,数据重力、Prince 所批评的出口费用,以及开发者对云平台更高级服务和抽象的依赖,都使得多云变得复杂。但在 2023 年,我们仍然看到了这种情况的存在。对于那些从所有主要云服务处获得免费额度的初创公司来说,追逐 GPU 以训练模型是非常合理的选择。
接下来是第五个原因,这是我们之前就已经预料到并讨论了几年的:AI 推理的地点不会局限于传统的大型数据中心,原因多种多样,包括合规性以及性能相关的因素。我认为,今后会形成一种竞争,那就是在用户的终端设备上完成的推理与在类似 Cloudflare 这样的网络上完成的推理之间的竞争。
Cloudflare 网络的覆盖范围广泛,几乎可以在地球上任何地方以仅五十毫秒的延迟提供服务。因此,我们观察到,尤其在人机交互领域,越来越多的 AI 公司选择在我们的平台上开发他们的推理引擎。从长远来看,我们将面临一个问题:是与终端设备制造商竞争,还是更可能的与他们合作。你的手机或笔记本电脑上的计算能力、GPU 或 CPU 的容量、带宽和存储空间都相当昂贵。Apple 或 Google 可能会在设备上处理一部分推理任务,但很多任务会在离设备非常近的网络上运行。所以,对我们来说,推理是一个新兴领域,但从长远看将变得越来越重要。
因此,这就涉及到 AI 和机器学习的网络架构,我们需要定义云端、边缘以及设备上将要执行的 AI 任务和数据流。这为每个云服务提供商提供了一个有趣的架构设计机会。例如,微软已经在这一领域进行了一些工程工作,今年 5 月推出了 Open Neural Network Exchange (ONNX) 和 Olive 工具链,这是一套旨在帮助开发者优化机器学习模型和推理过程、充分利用异构拓扑中硬件资源的工具。
Prince 认为 AI 是一个网络问题,这正是 Cloudflare 的强项。他认为,由于合规性、隐私和性能方面的考虑,一些推理任务在设备上进行是合理的。例如,在自动驾驶汽车中,紧急刹车功能应该是即时的,而聚合道路条件、交通报告或天气报告以选择最佳路线的任务,则可以由边缘云聚合多个云服务的数据来完成。
Prince 还提到了第六个可能的发展领域,那就是 Cloudflare 可能被用于信息管理,以确保企业机密不会被输入到像 ChatGPT 这样的模型中,从而避免泄露。
你会愿意将哪些信息发送给 AI 系统,又有哪些信息你绝对不想发送给 AI 系统,无论是出于安全顾虑还是因为不想用错误信息破坏模型?需要注意的是,大语言模型 (LLMs) 基本上是不能忘记已学习的信息的。
在 AI 系统中如何有效管理数据和信息流动,这是一个关键问题。Prince 认为这里面蕴藏着巨大的机遇。所谓的 Shadow AI,也就是新兴的 Shadow IT 领域,同样值得关注。即使一些最终用户的组织规定禁止使用 OpenAI 这样的第三方服务以避免泄露商业秘密,实际上这些用户很可能还是会违规使用。从小型计算机到个人电脑、开源软件、SaaS 应用再到云计算,我们在每一次技术革新中都能看到这种模式。用户总是倾向于选择那些最简单、最高效的工具。因此,即便是公司禁止使用 ChatGPT,这并不意味着员工就一定会听从。在 AI 和机器学习领域,信任、数据来源、安全性、可解释性、知识产权管理以及数据和信息的主权,这些都将成为竞争的关键点。
无论如何,Prince 都看好自己成为这个领域的基础设施提供者,就像那些为 AI 公司提供“挖掘工具和铲子”的关键供应商一样。