谷歌通过分析用户与搜索结果页面的互动数据——例如点击某个结果、返回再点击其他结果——来优化其搜索结果的排名。多年来,这种方法帮助谷歌在搜索相关性上保持领先,因为相比其他搜索引擎,谷歌拥有更丰富的用户互动数据。
但在 2018 年末,谷歌工程师们意识到,随着语言模型的发展,它们最终能够仅凭网页的文本内容,而无需任何用户反馈,就理解网页的含义。这一发现表明,即使是一个小型的创业公司也有可能挑战谷歌在搜索领域 20 年的领先优势。
谷歌资深软件工程师 Eric Lehman 在观察到谷歌的 BERT 语言模型在处理搜索结果页面上的“网页答案”时取得的初步成果后,写了一封电子邮件,警告 AI 技术可能对公司构成重大威胁。
在美国诉谷歌案的审判中,他回顾说:
BERT 的表现超越了我们十年来数十名工程师的努力成果。因此,我发送这封邮件,反思这一发现对未来可能意味着什么。
这完全出乎我的意料。我一直以为,谷歌之所以拥有巨大的优势,是因为我们专注于搜索技术多年,积累了深厚的理论和实践经验,虽然过程中犯了不少错误,但我们也从中学到了很多。我认为这是我们的宝贵财富。
但随着这一系统的出现,所有这一切似乎都不重要了,它击败了我们之前的所有成果。在这一点上,我们刚刚意识到,原本看似简单的“网页答案”问题,已经经历了彻底的颠覆,机器学习使之前的所有努力显得不再相关。
我在这里思考的,是同样的情况也将发生在网页搜索领域。我预测,这些进步将彻底改写过去的所有成就。
对此,Perplexity 的联合创始人兼 CEO Aravind Srinivas,Perplexity 也回复道:
在 Perplexity 推出的最初几周,一位谷歌的资深前员工给我提了同样的建议:“不要担心在用户数量上与谷歌的竞争。我们正处于一个技术时代,其中无监督学习技术能够直接从互联网上的原始文本中学习,而不需要像谷歌那样依赖大量的用户点击流数据来构建搜索索引和排名系统。你的机会就在这里。”有趣的是,这一点在 2018 年就被一位谷歌工程师指出,作为对谷歌本身的警告。
以下是其邮件的翻译:
2018 年 12 月 26 日,周三,下午 4:48,Eric Lehman 写道:
假期间,我有一个观点想分享给大家思考:
在不久的将来,深度机器学习 (ML) 系统很可能会显著超越谷歌 20 年来积累的网页搜索相关性算法。
此处我指的仅是判断一个文档与搜索查询是否关于同一主题的“相关性”。虽然在网页排名的其他方面,机器学习可能不那么适用,但我认为,判断基本相关性是网页排名的核心任务,而且足够“客观”,可以通过机器学习进行有效攻克。
虽然我们无法预知未来,但我相信,在 5 年内实现这一点几乎是必然的,甚至在 6 个月之内都有可能。许多与网页排名性质相似的问题已经被解决,网页排名并非特例。事实上,这个假期思考的出发点是最近在网页答案领域取得的进步,深度机器学习技术(特别是 BERT)突然使得以往所有的工作都显得不再那么重要。
对网页答案团队而言,过去几周深度机器学习技术的突破性进展完全出乎意料。有了这次预警,我们不能再次被动应对;相反,我们现在就应该开始考虑其潜在影响。现在是时候了,因为新的一年里,我预计许多网页排名的工程师将会反思 BERT 技术,并开始沿这些思路进行思考。
值得一提的是,这样的深度机器学习系统可能会在谷歌之外的地方被开发出来——无论是在微软、百度、雅虎、亚马逊、苹果,还是在某个初创公司。我认为翻译团队已经经历过类似的情况。深度机器学习技术彻底改变了翻译游戏的规则;之前的优势被迅速抹平。幸运的是,谷歌在深度机器学习上的巨大投资取得了成效,我们在这个新领域表现出色。尽管如此,我们的新 ML 翻译器在基准测试中仍然被一个小型初创公司超越。BERT 得出的一个令人震惊的结论是:大量的用户反馈可以通过对原始文本进行无监督学习来实现大规模替代。这对谷歌来说可能意味着重大的影响。
网页搜索中的相关性可能不会那么快就屈服于深度机器学习,因为我们依赖的记忆系统规模远超任何现有的 ML 模型,并且包含了大量关于语言和世界的重要知识。此外,还存在许多性能挑战和特殊考虑因素。尽管如此,我认为,我们当前方法的优势最终将不复存在;机器学习技术进展迅速,而传统方法却远远落后。
关于这一点,大家可能有不同的看法。或许你已经意识到了这一前景,或者你可能认为这种对未来的看法是错误的。就我个人而言,我倾向于认为这种未来几乎是不可避免的,但尽管如此,我之前还没有深入思考其可能带来的影响。一些值得我们思考的问题可能包括:
-
我们现在能采取什么措施,确保我们主导这种转变,而不是被其所影响?我个人不希望几年后人们回顾时认为,“那些坚持传统网页排名方法的人被新潮流所淹没,却浑然不觉……”我们能否设定一个目标,例如,与研究团队合作,在 2019 年用深度学习模型超越我们现有的最佳预测?
-
我们怎样向从事网页排名的同事们传达这一可能的未来,而不损害他们的士气?
据我所知,翻译团队几年前就决定全面投入到大规模机器学习中,回顾起来这看起来是明智之举。尽管如今在相关性这一领域采取同样极端的措施似乎过早,因为我们可能会在深度机器学习方法真正成熟之前,通过传统手段错失一些重大进展。然而,听到了 BERT 的警示而不调整我们的计划,同样显得不够明智。
总之,这个较为宁静的时刻,这个话题在一直萦绕在我的心头,我想分享给大家。