现今,我们正处在决定现代 AI 技术架构未来的关键时刻。机器现在不仅仅是计算工具,它们已经拥有了推理、创造和创新的能力。这些新兴能力正推动企业对他们的技术架构进行根本性的重塑。虽然早期的 AI 变革给人一种无序的感觉,但现在,开发者们正在基础设施、工具和方法上达成共识。(我们在去年 11 月的Menlo 企业 AI 状态报告中首次报告了这种转变。)
我们非常高兴地分享我们的看法:AI 的发展将如何演变,以及构成现代 AI 技术架构的核心基础设施部分——这些部分将共同构建出未来十年 AI 应用的新运行架构。
界定现代 AI 技术架构
2023 年,企业在构建现代 AI 技术架构方面的投入超过了 11 亿美元,这使其成为生成式 AI 领域中最大的新兴市场,也为创业公司提供了巨大的发展机会。
在 Menlo Ventures,我们将现代 AI 技术架构的关键层次定义为:
-
第一层:计算能力和基础模型。 这一层包括基础模型本身,以及用于训练、微调、优化和最终部署这些模型的基础设施。
-
第二层:数据处理。 这一层负责将大语言模型(LLM)与企业数据系统中的相关内容连接起来。它的核心组件包括数据预处理、ETL(提取、转换、加载)及数据管道,以及各种数据库,如向量数据库、元数据存储和上下文缓存。
-
第三层:部署工具。 这一层包含帮助开发者管理和协调 AI 应用的工具,涵盖了智能体框架、提示管理,以及模型路由和协调功能。
-
第四层:可观测性。 这是现代 AI 技术架构的最后一层,它提供了监控大语言模型运行时行为和防范威胁的解决方案,包括用于大语言模型观测性和安全性的新型解决方案。
新的 AI 成熟度曲线
在现代 AI 领域,市场结构和技术都在快速演变。关键的组件和领导者正在逐渐浮出水面。这些早期成功者的出现预示着一种全新的 AI 成熟度曲线,它与传统的机器学习开发过程大不相同。
在大语言模型 (LLM) 问世之前,机器学习 (ML) 的发展过程是一条直线,重点放在模型的构建上。构建 AI 应用的团队需要从头开始打造模型,这个过程不仅耗时漫长,涉及数据收集、特征设计和反复训练,而且还需要一群博士级的专家,直到最终将系统转化为面向客户的产品。
然而,大语言模型彻底颠覆了这种模式。它让 AI 开发变得以产品为先,即使是没有机器学习背景的团队也能轻松地将 AI 融入他们的产品中。现在,任何人都可以通过接入 OpenAI 或 Anthropic 提供的 API,立刻使用世界级的强大模型,从而使公司能够以产品为起点,而不是模型。
虽然将简单的 API 调用整合入产品相对容易,但随着 AI 技术的深入发展,开发团队会追求更加定制化的 AI 体验,比如结合企业或客户特有的数据。他们可能从简单的提示优化,如检索增强生成 (RAG),逐渐过渡到模型层面的优化,包括模型选择、微调或是数据量化等,这些优化是基于性能、成本和响应速度等因素考虑的。
在过去一年里,AI 的建造者们一起经历了从传统机器学习到新 AI 成熟度曲线的转变,逐步确立了一系列新的基础构建块,为生产级 AI 系统在每个发展阶段提供了必要的支撑。
- 第一阶段:仅闭源模型阶段。2023 年初,投资和工程技术主要聚焦于基础模型本身,并只进行了一些基础的定制化改进,比如使用引导词汇(prompt engineering)和少样本学习(few-shot learning)。像OpenAI和Anthropic这样的领先闭源模型公司在此阶段迅速崭露头角,成为现代 AI 技术栈早期的佼佼者。
- 第二阶段:加入检索增强的生成技术。随后,企业在新的发展阶段开始将重点放在数据处理,而不是仅仅专注于模型本身。特别是,检索增强生成(RAG)技术的流行促使企业需要构建更强大的数据处理基础设施,如向量数据库Pinecone和数据预处理引擎Unstructured。大多数企业和创业公司现在正处于这一发展阶段。
- 第三阶段:混合模型的部署。最新的发展是 AI 技术成熟度曲线上的第三阶段,一些领先公司如Typeface和Descript开始将闭源模型和开源模型结合使用,以应对高容量、特定领域的任务。这种趋势的推动下,模型部署供应商如Modal、Baseten和Fireworks开始获得显著关注。
- 第四阶段及未来:定制模型。尽管目前只有少数公司有建立自己模型的复杂需求,但未来大型企业可能会深入探索这一领域。为此,Predibase和Lamini等公司提供了一系列内存效率高的微调工具,包括 4 位量化技术、QLoRA 以及内存分页/卸载技术,以支持他们的需求。
新 AI 基础设施堆栈的四大关键设计原则
AI 革命不仅催生了对新型基础设施堆栈的需求,还从根本上改变了企业在应用开发、研发投资和团队构建方面的思路。在接下来的部分中,我们将详细介绍适应这一新趋势的四大关键设计原则。
1. 推理而非训练占据了大部分支出
在大语言模型 (LLM) 革命初期,人们认为将来每家公司都可能训练自己的大语言模型。以 BloombergGPT 为例,它是一个专注于财经数据的 500 亿参数大语言模型,2023 年 3 月发布,被看作是企业和领域特定大语言模型涌现的先声。
然而,这种大规模需求并没有如预期那样出现。相反,根据 Menlo Ventures 的最新企业 AI 调查 显示,几乎 95% 的 AI 支出用于模型的运行,而不是预训练阶段。仅在像 Anthropic 这样的大型基础模型供应商中,这种情况才刚好相反。在应用层,即便是像 Writer 这样的高级 AI 开发者,也将超过 80% 的计算资源用于模型推理,而不是训练。
2. 我们处在多模型时代
没有任何一个模型能独霸天下。根据 Menlo 的企业 AI 报告 指出,60% 的企业采用多种模型,并根据性能将输入指令发送到最合适的模型。这种多模型策略不仅减少了对单一模型的依赖,还提高了可控性,并且能有效降低成本。
3. RAG 成为主流的架构方式
大语言模型 (LLM) 在逻辑推理方面表现出色,但在特定领域和企业知识上则显得有所不足。为了打造实用的 AI 应用,团队们正迅速采用知识增强手段,首选的就是检索增强生成(RAG)技术。
图片提供:Clemens Mewald
RAG 技术通过像 Pinecone 这样的向量数据库,为基本模型增加了针对特定企业的“记忆”功能。它的发展速度远超过其他定制技术,比如微调、低秩适应或适配器,这些技术主要集中在模型层面的调整。我们预计,未来这种趋势将持续,新的数据处理组件——例如数据预处理引擎(如 Cleanlab)和 ETL 管道(如 Unstructured)——也将在实时架构中发挥作用。
4. 如今,所有开发者都是 AI 开发者
全球有 3000 万开发者,30 万机器学习工程师,但机器学习研究员只有 3 万名。在机器学习领域的前沿,全球可能只有 50 名研究员真正掌握了构建 GPT-4 或 Claude 2 这样高级系统的知识。
面对这种情况,好消息是,现在普通开发者可以在几天或几周内完成过去需要多年基础研究和深厚机器学习知识才能实现的任务。他们在强大的预训练大语言模型 (LLM) 基础上构建数据系统。
例如 Salesforce 的 Einstein GPT(一个面向销售的生成式 AI 辅助工具)和 Intuit Assist(一个由生成式 AI 驱动的财务助理),这些产品大多是由 AI 工程师的小型团队开发的。这些工程师多为传统的全栈工程师,他们在现代 AI 架构的数据层面工作,而不是像数据科学家、机器学习工程师或研究员那样专注于模型层面。
未来展望
随着现代 AI 架构的快速发展,我们预见今年将出现许多新的发展:
下一代 AI 应用探索更高级的 RAG 技术
虽然 RAG(一种先进的检索与生成技术)目前在 AI 领域占据主导地位,但它并非没有问题。目前许多实现方式还在使用一些基础的嵌入和检索方法,如令牌计数法切分文档和效率不高的索引排名算法。这导致了一些普遍问题,例如:
- 上下文碎片化。学术测试中答案往往集中在文档的某个地方,但在实际应用中很少这样。
- 幻觉现象。在需要多步骤推理的任务中,大语言模型 (LLM) 的表现和准确性会下降。
- 实体稀有性。在特定情况下,传统的基于词匹配的“稀疏检索”方法有时比基于数据嵌入的“密集检索”效果更好。
- 检索效率低。存在高延迟和成本问题。
为解决这些问题,新一代的架构正在尝试更先进的 RAG 应用,结合了如链式思维推理、树状思维推理、反思 和基于规则的检索等新技术。
小型模型在现代 AI 架构中的重要性日益增加
随着 AI 应用开发者对现代 AI 架构的深入理解和精细化操作,我们发现越来越多针对特定任务的精细调整模型正在崭露头角,尤其是在大型闭源模型显得笨重或成本高昂的领域。在这个阶段,搭建机器学习流程和进行模型微调的基础设施变得至关重要。像 Ollama 和 ggml 这样的量化技术,能帮助团队充分利用小型模型的性能优势。
新兴工具用于提高模型的可观测性和评估能力
2023 年,大多数企业在日志记录和模型评估方面要么没有进行,要么依靠手工操作,或是使用学术基准作为起点。我们的研究显示,约 70% 的 AI 应用者依赖人工审核输出作为主要评估手段。这是因为输出质量至关重要:客户期望得到高质量的结果,而企业也非常关注幻觉现象可能带来的信任危机。因此,观测和评估成为新工具开发的一个重大机遇。目前已经出现了一些有前景的新方法,例如 Braintrust、Patronus、Log10 和 AgentOps。
AI 架构的新趋势:迈向无服务器时代
在企业数据系统的其他领域,我们看到现代 AI 技术栈正在逐步转向无服务器架构。这里我们要区分两种无服务器类型:一种是基于“临时计算资源”的无服务器(例如 Lambda 函数),另一种是真正能够按需扩展至零的无服务器(例如,Neon为 Postgres 设计的架构)。
对于后一种架构,通过将基础设施的管理抽象化,开发者可以摆脱运行应用时的复杂管理任务,这不仅使得产品迭代更加迅速,还能让企业仅按实际计算使用量付费,而不是按系统可用性付费,从而实现资源的显著优化。无服务器理念将被应用到现代 AI 技术栈的每一个部分。Pinecone 在其最新的向量计算架构中已经采用了这种方法。对于 Postgres 的 Neon、对于缓存的 Momento,以及 Baseten 和 Modal 在推理方面,都在积极拥抱这种趋势。
在 Menlo,我们对现代 AI 技术栈的各个层面进行了广泛投资,其中包括 Anthropic、Pinecone、Neon、Clarifai、Cleanlab、Eppo、Truera 等。我们还投资了诸如 Abnormal Security、Aisera、Eve、Genesis Therapeutics、Lindy、Matik、Observe.ai、Sana、Typeface 和 Vivun 等利用这些工具建立的公司。随着 AI 技术栈的持续发展,我们渴望与那些将定义其未来关键组成部分的基础设施建设者携手合作。如果你正在 AI 领域探索创新,欢迎随时联系我们。
*受 Menlo Ventures 支持