未来,个性化的 AI 助手将可以在边缘设备上离线运行,将衍生出很多出人意料的创新
译注:”边缘设备”(Edge Devices)指的是位于网络的边缘,靠近数据源(如物联网设备、智能手机、笔记本电脑等)的设备。这些设备能够进行数据处理和分析,而不需要将数据发送到中央服务器或云。在人工智能领域,边缘设备上的 AI 运算意味着能够在设备本身上快速处理和响应数据,而无需依赖远程服务器,这样可以提高响应速度,减少带宽需求,并提高数据隐私性。
MATTHEW SMITH 2023 年 12 月 1 日
下一代超级聊天机器人将在您的笔记本电脑上快速处理和响应数据,完全不需要互联网连接。
这是英特尔首席执行官 Pat Gelsinger 在 2023 年 Intel 创新峰会上描述的愿景。Gelsinger 展示了一系列舞台演示,预告了“AI 个人电脑”的到来。这些电脑被设计为加速用户所需要的各种 AI 任务,完全依靠个人电脑的硬件。
在这场技术竞赛中,英特尔并不是唯一的参与者。从苹果到高通,每个消费科技巨头都在努力使其硬件和软件能够在本地硬件上运行 人工智能,而非依赖远程云服务器。他们的目标是什么?一个如此流畅和私密的个性化 AI,以至于你几乎感觉不到它是“AI”。
AI 曾经承诺将彻底革新我们的生活方式,但这个梦想现在似乎有些脱节。
英特尔网络和边缘集团的企业副总裁 Pallavi Mahajan 表示:“现在,有一半的边缘计算任务正在考虑将 AI 作为主要负载。目前,大部分任务由自然语言处理和计算机视觉驱动。然而,随着大语言模型(LLMs)和生成式 AI 的兴起,我们仅仅看到了一个开始。”
在 AI 领域,云计算短暂登顶——但它能维持多久?
2023 年对于云端 AI 来说,可谓是里程碑式的一年。Microsoft 的 CEO Satya Nadella 以 100 亿美金的巨额投资于 OpenAI——ChatGPT 和 DALL-E 的开发者,为这个行业定下了风向标。同时,Google 也紧随其后,推出了自家的聊天机器人 Bard,并在 3 月份上线;Amazon 则在 9 月宣布向 Anthropi 投资 40 亿美元,后者是 ChatGPT 的竞争对手 Claude 的创造者。
“超大型的大语言模型在进行语音交互时反应速度较慢。”
—OLIVER LEMON, 赫瑞瓦特大学,爱丁堡
这些动作似乎预示着 AI 将很快在我们生活的方方面面带来革命性的变化,但实际上,这个梦想还未完全实现。目前,最强大的 AI 模型极度依赖于装有昂贵 AI 硬件的数据中心,用户必须通过稳定的网络连接来访问它们。即使如此,通过远程访问的 AI 模型有时还是会反应迟缓。比如,ChatGPT 生成的对话或由 DALL-E 2 制作的图片,有时会因为服务器负担过重而出现延迟。
爱丁堡赫瑞瓦特大学的计算机科学教授奥利弗·莱蒙(Oliver Lemon),同时也是爱丁堡国家机器人实验室(National Robotarium)的联合负责人,亲身经历了这一挑战。莱蒙在对话式人工智能和机器人学领域拥有 25 年的丰富经验,他急切地想将最大型的大语言模型(LLM)应用于像 Spring 这样的机器人上,Spring 是一种为医院访客和病人提供指导的仿人助理。本以为 Spring 能从现代大语言模型的创新和类似人类的对话能力中受益,但实际上它暴露了云计算能力的局限性。
莱蒙发现:“[ChatGPT-3.5] 在真实场景中部署太慢了。一个较小、本地化的大语言模型反而效果更好。我觉得那些非常大型的大语言模型在进行语音交互时反应速度太慢。”他对OpenAI能找到突破方法持乐观态度,但他认为这需要一个比全能型的 GPT 更小巧、更敏捷的模型。
Spring 最终选择了Vicuna-13B,这是一个由大模型系统组织(the Large Model Systems Organization)的研究人员调整后的Meta 的 Llama LLM版本。这个模型的“13-B”代表了它拥有的 130 亿参数,在大语言模型中算是较小的规模。而最大的 Llama 模型包含了 700 亿参数,OpenAI 的 GPT-3.5 则达到了惊人的 1750 亿参数。
减少模型参数的另一个好处是降低了训练成本,这对研究人员来说是一大优势。同时,更快的“推理”速度——即 AI 模型处理新数据(如文本提示或照片)所需的时间——也同样重要。无论是机器人还是其他形式的 AI 助理,只要是打算实时帮助人类的,这种快速反应能力都是必不可少的。
本地推理还扮演了一个关键角色,它是所有个性化 AI 助理隐私保护的守门人。
“深入了解就会发现,推理市场其实远大于训练市场。推理最理想的发生地点就是数据所在之处,”英特尔的 Mahajan 表示。“因为推动 AI 的究竟是什么呢?那就是我们在笔记本电脑或手机上使用的各种应用。”
边缘性能代表着隐私
其中一个这样的应用是 Rewind,这是一个个人化 AI 助手,能帮助用户回忆在 Mac 或 PC 上完成的所有活动。无论是已删除的电子邮件、隐藏的文件,还是旧的社交媒体帖子,都可以通过文本搜索找到。这些恢复的数据可以有多种用途。Rewind 能够转录视频、恢复崩溃浏览器标签页的信息,或为电子邮件和演示文稿制作摘要。
Mahajan 提到,Rewind 推出 Windows 版本是其开放 AI 开发生态系统 OpenVINO 的实践例证。它使开发者能够利用本地的 CPU、GPU 和 神经处理单元(NPU),无需为每种硬件编写特定代码,从而优化了各种硬件的推理性能。苹果的 Core ML 为 iPhone、iPad 和 Mac 的开发者提供了类似的工具集。
“在使用基于网络的工具时,人们往往将信息丢进去……它简单地吞没一切,再将其转交给他人。”
—PHIL SOLIS, IDC
快速的本地推理作为实现隐私这一更广泛目标的守门人。
Rewind 拥有众多功能,但为此,它需要接触你电脑上几乎所有活动。这并非 Rewind 独有,所有个人化 AI 助手都需要广泛访问你的生活信息,包括许多人认为敏感的内容(例如密码、语音和视频录音、电子邮件)。
Rewind 通过在笔记本电脑上进行训练和推理来解决安全问题,其他注重隐私的 AI 助手很可能会采取相同的方法。这种做法展示了如何通过边缘更优的性能直接增强个性化体验和隐私保护。开发者现在可以开始提供以前只能依靠数据中心强大支撑才能实现的功能,同时也向那些担忧数据去向的人们伸出橄榄枝。
国际数据公司 (IDC) 的研究总监 Phil Solis 相信,到 2024 年,设备内 AI 技术,特别是在消费电子设备上的应用,将迎来关键的发展机遇。Solis 表示:“智能手机和个人电脑支持 AI 和生成式 AI (Generative AI) 功能是一个重大进步。随着基于网络的工具的普及,人们纷纷向这些工具输入信息……它们会吸纳所有信息,再分发给其他人。因此,出于隐私和安全的考虑,在设备上实现 AI 技术变得尤为重要。”
小成本大智慧:意想不到的智能突破
大语言模型已成为杰出的助手,它们的能力已延伸到模糊的因果推理领域。这些 AI 模型能够根据给定信息得出结论,并在必要时逐步阐释它们的思维过程。尽管AI 对结果的理解程度仍有讨论空间,但其应用成果已经初见成效。
高通即将推出的新款 Snapdragon 芯片,将能让旗舰手机完全离线处理 Meta 强大的 Llama 2 大语言模型,无需网络连接或网页浏览。
初创公司 Artly 正在其咖啡机器人 Jarvis 和 Amanda 中应用 AI 技术。这些机器人在北美多个地点提供咖啡服务,甚至能在俄勒冈州波特兰极为挑剔的咖啡文化中制作出上乘的卡布奇诺。公司联合创始人兼 CEO Meng Wang 希望通过大语言模型让这些咖啡机器人更加智能和亲和。
Wang 表示:“如果机器人拿起一个杯子并倾斜,我们原本需要告诉它可能的结果。”但现在,通过训练大语言模型,机器人可以自行推断这种结论,并在不同场景中加以应用。他提到,机器人并不完全独立工作——例如,它需要网络连接来处理支付验证——但其内部搭载了 Nvidia GPU,专门处理计算机视觉任务。
这种融合现有技术与 AI 的方法值得关注。例如,Rewind 应用采取了类似的策略:虽然它在本地处理用户个人数据的训练和推理,但在需要高质量输出的特定任务上,如撰写电子邮件时,它会提供使用 ChatGPT 的选项。
即便是只能依赖本地硬件的设备,也能展现出惊人的智能成果。Lemon 透露,SPRING 团队在 Vicuna-13B 这样的小型本地推断 AI 模型上实现了出人意料的智能。虽然其推理能力无法与 GPT 相媲美,但该模型经过训练后,可以使用上下文标签触发预设的物理动作和表情,展示出它的兴趣。
机器人的共情能力可能看起来比“人工智能个人电脑 (AI PC)”的目标要小众,但机器人面临的性能和隐私问题与下一代人工智能助手所面临的挑战是相同的。这些人工智能助手正在逐渐问世,虽然目前它们多以完成特定任务的形式出现。Rewind 软件现已可在 Mac 上下载(Windows 版本也将很快推出)。新款 Apple Watch 采用基于 Transformer 的人工智能模型,使得 Siri 可以离线使用。三星计划从明年开始,在其新家电产品中集成神经处理单元 (NPU)。高通即将在旗舰手机中推出的 新 Snapdragon 芯片 能够完全在手机上处理 Meta 的强大的 Llama 2 大语言模型 (LLM),无需连接互联网或浏览网页。
英特尔的 Mahajan 表示:“我认为这是一个转变时刻。大约 20 年前,我们处于一个一切都向云端迁移的世界。而现在,我们看到这一趋势正在反转。我们见证了应用程序正逐渐回归到边缘计算。”