2023 年 12 月 6 日
让 AI 更贴近每个人的生活
来自 Google 和 Alphabet 首席执行官 Sundar Pichai 的寄语:
每一次技术革新都是推动科学突破、加快人类前进的好机会,也是改善我们的生活的大好时机。我认为,我们现在见证的 AI 革命将是我们一生中最为深远的改变,这种影响甚至超过了手机和互联网的普及。AI 的潜力无限,它不仅能够改善我们的日常生活,还能在更高层面上创造出非凡的机会。AI 将引领创新与经济的新浪潮,并以前所未有的规模推动知识、学习、创造力和生产力的提升。
我最激动的是,有机会让 AI 成为全世界每个人的得力助手。
自从我们定位为一家以 AI 为核心的公司已经八年了,这期间我们的进步速度越来越快:如今,已经有数百万人在我们的产品中使用生成式 AI,做到了一年前难以想象的事情,比如解决更复杂的问题,或是使用全新工具进行协作和创造。同时,全球的开发者和企业都在利用我们的 AI 模型和基础设施开发新的应用,实现增长。
这种势头令人振奋,但我们仅仅是开始探索 AI 的无限可能。
我们对这项工作的态度是大胆且负责任的。这意味着我们在研究上充满野心,努力开发能够为人类和社会带来巨大益处的能力,同时也在建立安全机制,并与政府和专家合作,共同应对随着 AI 能力增强所带来的风险。我们持续投入于最优秀的工具、基础模型和基础设施,并将它们应用于我们的产品及其他产品,这一切都遵循我们的AI 原则。
现在,我们准备迈出旅程的下一步,推出 Gemini,这是我们迄今为止最强大、最全面的模型,它在众多顶尖的基准测试中表现卓越。我们的第一个版本 Gemini 1.0,有多种规格:Ultra、Pro 和 Nano。这些是我们迈入 Gemini 时代的首批模型,也是我们今年初成立 Google DeepMind 时愿景的初步实现。这一新时代的模型是我们公司迄今为止在科学和工程方面的最大努力。我对未来充满期待,也相信 Gemini 将为全球人民带来无限的新机遇。
– Sundar
介绍 Gemini
由谷歌 DeepMind 的首席执行官兼联合创始人 Demis Hassabis 代表 Gemini 团队撰写
AI 是我一生致力的工作重点,这对我许多研究同事来说也是一样。从我青少年时期开始为电脑游戏编写 AI,到作为神经科学研究者探索大脑的奥秘,我始终相信,如果能打造出更加智能的机器,我们就可以利用它们为人类带来前所未有的益处。
正是这个让 AI 负责任地赋能世界的愿景,持续驱动着我们在谷歌 DeepMind 的工作。我们长期以来一直梦想着构建新一代 AI 模型,它们的灵感来源于人类理解和与世界互动的方式。这样的 AI 不仅仅是一款智能软件,更像是一个有用且直观的专家助手或助理。
今天,我们在实现这个愿景上迈出了更大的一步。我们隆重介绍 Gemini,这是我们迄今为止开发的最强大、最通用的模型。
Gemini 是谷歌各团队大规模合作的成果,包括我们在谷歌研究部门的同事们。它是从零开始打造的多模态模型,这意味着它能够广泛地理解并流畅地处理和结合包括文本、代码、音频、图像和视频等多种类型的信息。
介绍 Gemini:我们最大、最有能力的 AI 模型
Gemini 还是我们迄今为止最灵活的模型,它能够在从数据中心到移动设备的各种设备上高效运行。它的尖端技术能力将极大地改善开发者和企业用户使用 AI 构建和扩展应用的方式。
我们针对 Gemini 1.0 进行了优化,这是我们的首个版本,包括三个不同规模的型号:
- Gemini Ultra — 我们最大型号、能力最强的模型,适用于极其复杂的任务。
- Gemini Pro — 我们最佳模型,适合跨越广泛任务范围的扩展。
- Gemini Nano — 我们最高效的模型,专为设备上的任务而设计。
一流的性能
我们对 Gemini 模型进行了严格的测试,并在多样化的任务上评估其性能。在从自然图像、音频和视频的理解到数学推理等多个领域,Gemini Ultra 的表现在 32 个广泛应用于大语言模型研究和开发的学术基准测试中,超越了现有尖端成果的 30 项。
在 MMLU(大规模多任务语言理解)评测中,Gemini Ultra 以 90.0% 的得分成为首个超越人类专家的模型。MMLU 综合了 57 个诸如数学、物理、历史、法律、医学和伦理学等主题,用以测试模型在全球知识和问题解决能力方面的表现。
我们针对 MMLU 的新基准方法使 Gemini 能在回答棘手问题前更加谨慎地运用其推理能力,相较于仅依赖初印象,这种方式带来了明显的提升。
无论是文本还是编程基准测试,Gemini 都展现出超越现有技术的卓越性能。
在新的 MMMU 基准测试中,Gemini Ultra 也取得了 59.4% 的高分。该测试包含了多个领域的多模态任务,需要深入的推理能力。
在我们测试的图像基准方面,Gemini Ultra 无需物体字符识别 (OCR) 系统的辅助,就超越了之前的尖端模型。这些基准测试突显了 Gemini 的天生多模态能力,并预示了其更为复杂的推理能力。
更多细节请参阅我们的 Gemini 技术报告。
Gemini 在多模态基准测试方面也超越了现有的技术水平。
下一代能力的飞跃
直到最近,多模态模型的建立通常是单独训练处理不同类型信息的组件,然后将它们组合起来,试图模拟某些功能。这些模型在某些任务上表现不错,比如描述图片,但在处理更加抽象和复杂的逻辑推理时就显得力不从心。
Gemini 的设计初衷就是让它从一开始就能处理不同类型的信息,我们先对它进行多模态的预训练,然后通过额外的多模态数据进行微调,以此来提高其效果。这使得 Gemini 能够从根本上无缝理解和推理各种类型的输入,其能力在几乎所有领域都达到了顶尖水平。
更多关于 Gemini 的能力和它的工作方式,欢迎了解。
高级推理能力
Gemini 1.0 的高级多模态推理能力能够帮助解读复杂的书面和视觉信息,这让它在从海量数据中挖掘难以察觉的知识方面具有独特优势。
它能够通过阅读、筛选和理解信息,从成千上万的文件中抽丝剥茧,提炼出关键洞见,这在从科学到金融等多个领域将带来数字化速度的新突破。
Gemini 揭示新的科学见解
理解文本、图像、音频等
Gemini 1.0 能够同时处理和理解文本、图像、音频等多种信息,这使它在理解复杂话题上更加细腻,能够回答那些涉及到复杂主题的问题。它在解释数学和物理等复杂科目的推理过程方面表现尤为出色。
Gemini 在数学和物理学方面的解释能力
高级编程
我们首个版本的 Gemini 能够理解、解释并生成世界上最受欢迎编程语言(例如 Python、Java、C++ 和 Go)的高质量代码。其跨语言操作能力和对复杂信息的处理使其成为全球领先的编程基础模型之一。
Gemini Ultra 在多个编程基准测试中表现卓越,其中包括 HumanEval —— 一个评估编程任务性能的重要行业标准,以及我们的内部数据集 Natural2Code,后者使用原创来源而非网络信息。
此外,Gemini 还可以作为更高级编程系统的核心。两年前,我们展示了 AlphaCode,这是首个在编程竞赛中达到竞争水平的人工智能代码生成系统。
我们利用 Gemini 的特殊版本创建了更先进的代码生成系统 AlphaCode 2,该系统擅长解决涉及复杂数学和理论计算机科学的竞赛编程问题。
Gemini 在编码和竞赛编程方面表现出色
在与原版 AlphaCode 相同的平台上进行评估时,AlphaCode 2 展现了显著提升,解决问题数量几乎翻倍。我们估计其性能超过了 85% 的竞赛参与者,相较于 AlphaCode 的近 50% 有显著提高。当程序员与 AlphaCode 2 协作,为代码样本定义特定属性时,其表现更为出色。
我们期待程序员们越来越多地将这些高效能的 AI 模型作为协作工具,以帮助他们解决问题、设计代码,并协助实施,这将使他们能够更快地推出应用程序并设计更好的服务。
更多详情请参阅我们的 AlphaCode 2 技术报告。
更加可靠、可扩展和高效
我们利用 Google 自行设计的 张量处理单元(Tensor Processing Units)(TPUs)v4 和 v5e,在我们为 AI 优化的基础设施上对 Gemini 1.0 进行了大规模训练。Gemini 1.0 被打造成为我们最稳定、最易于扩展的训练模型,同时也是运行最高效的模型。
在 TPUs 上,Gemini 的运行速度远超过之前的较小且功能有限的模型。这些专为 AI 优化的加速器是 Google 众多 AI 驱动产品的核心,服务于全球数十亿用户,如 Google 搜索、YouTube、Gmail、Google 地图、Google Play 和 Android。这些加速器还使全球的公司能够高效、低成本地训练大型 AI 模型。
今天,我们宣布了迄今为止最强大、最高效、最具扩展性的 TPU 系统——Cloud TPU v5p,这是专门为训练前沿 AI 模型而设计的。这款新一代的 TPU 将加快 Gemini 的发展,并助力开发者与企业客户更快地训练大型生成式 AI 模型,让新产品和功能更快地惠及用户。
Google 数据中心内排列着的 Cloud TPU v5p AI 加速超级计算机。
贯彻责任与安全的核心构建理念
在谷歌,我们全力以赴推动大胆、负责的人工智能发展。在谷歌的人工智能原则和我们产品中严格的安全政策的基础上,我们为 Gemini 的多模态能力增添了新的保护措施。在开发的每一步,我们都在仔细考虑潜在风险,并努力进行测试和减轻这些风险。
Gemini 在偏见和毒性方面进行了谷歌迄今最全面的安全评估。我们进行了针对潜在风险领域的开创性研究,如网络攻击、说服力和自主性,并采用了谷歌研究最先进的对抗测试技术,以便在 Gemini 部署前提前发现关键安全问题。
为了找出我们内部评估方法的盲点,我们与一群多元化的外部专家和合作伙伴合作,对我们的模型进行全方位的压力测试。
在 Gemini 的训练阶段,为了诊断内容安全问题并确保其输出符合我们的政策,我们使用了如Real Toxicity Prompts这样的基准测试,这是由 Allen 人工智能研究所的专家开发的,含有来自网络的 10 万个不同毒性级别的提示。更多相关工作的细节即将发布。
为了减少伤害,我们专门建立了安全分类器,用于识别、标记和过滤涉及暴力或负面刻板印象的内容。加上强效的过滤器,这种多层次的方法旨在让 Gemini 对每个人都更加安全、包容。此外,我们还在不断应对事实性、基础性、归属和证实等方面的模型挑战。
在我们的模型开发和部署过程中,责任感和安全性始终是核心要素。这是一项长期的承诺,需要与行业和更广泛的生态系统合作建设。因此,我们通过组织如 MLCommons、Frontier Model Forum 及其 AI Safety Fund,以及我们的 Secure AI Framework (SAIF) 等,与行业伙伴共同定义最佳实践,并设定安全性和安保标准。这些努力旨在帮助降低公共和私营部门 AI 系统的安全风险。我们将继续与全球研究人员、政府和民间团体合作,共同推进 Gemini 的发展。
使 Gemini 惠及全球
Gemini 1.0 正在广泛推向各种产品和平台:
Gemini Pro 集成于 Google 产品
我们正通过 Google 的产品将 Gemini 带给全球数十亿用户。
从今天开始,Bard 将采用 Gemini Pro 的优化版本,以实现更高级的推理、规划、理解等功能。这是 Bard 自推出以来的最重大升级。它将首先以英语面向超过 170 个国家和地区提供服务,我们计划在不久的将来支持更多模式、新语言和地区。
我们还在将 Gemini 引入 Pixel。Pixel 8 Pro 是首款搭载 Gemini Nano 的智能手机,为像记录器应用中的“概要功能”和 Gboard 的“智能回复”等新功能提供支持,首先支持 WhatsApp,明年将拓展至更多消息应用。
在接下来的几个月中,Gemini 将在我们更多的产品和服务中推出,如搜索、广告、Chrome 和 Duet AI。
我们已经开始在搜索功能中尝试使用 Gemini,它使我们的 搜索生成体验(SGE)对用户更加迅速,美国英语搜索的延迟降低了 40%,同时质量也有所提升。
利用 Gemini 打造创新
从 12 月 13 日起,开发者和企业用户可以通过 Google AI Studio 或 Google Cloud Vertex AI 的 Gemini API 访问 Gemini Pro。
Google AI Studio 是一个免费的、基于网页的开发工具,可以让开发者通过 API 密钥迅速构建原型并启动应用。当需要更高级的全托管 AI 平台时,Vertex AI 提供了对 Gemini 的个性化定制,拥有完整的数据控制,并且能从 Google Cloud 的其他特性中受益,例如企业安全、安全保护、隐私保护、数据治理和合规性等。
Android 开发者还能使用 AICore,在 Android 14 中利用 Gemini Nano 构建应用。Gemini Nano 是我们在设备上任务中最高效的模型,首先将在 Pixel 8 Pro 设备上提供。有兴趣的可以报名参加 AICore 的早期体验。
更强大的 Gemini Ultra 即将来临
我们正在为 Gemini Ultra 进行全面的信任和安全检测,这包括受信任外部团队的红队测试,以及在大规模推出前,通过细致调整和基于人类反馈的强化学习 (RLHF) 进一步完善模型。
作为这个过程的一部分,我们将让部分客户、开发者、合作伙伴以及安全和责任专家率先体验 Gemini Ultra,并提供反馈。明年初,我们计划将其向更广泛的开发者和企业用户推出。
明年初,我们还会推出 Bard Advanced,这是一种全新的先进 AI 体验,提供我们最佳模型和功能的使用权限,首先是 Gemini Ultra。
Gemini 时代:开启创新未来之门
这是 AI 发展的关键里程碑,也标志着我们 Google 迈入了一个全新时代。我们将继续快速创新,并负责任地提升我们的模型能力。
我们已经在 Gemini 上取得了重大进展,并正在努力进一步拓展其未来版本的能力,如在规划和记忆方面的提升,以及增加处理更多信息的上下文窗口,以便提供更佳的响应。
我们对 AI 负责任地赋能世界所带来的巨大潜力感到兴奋。这是一个充满创新的未来,它将激发创造力,拓展知识,推动科学发展,并改变全球数十亿人的生活和工作方式。