为模拟书面语言而开发的人工智能,也可以用于预测人们生活中的事件。来自 DTU、哥本哈根大学、ITU 和美国东北大学的研究项目发现,通过使用大量关于人们生活的数据,并训练所谓的“Transformer”模型(类似于 ChatGPT),这些模型不仅可以处理语言,还能系统地整理数据,预测人生事件,甚至估算死亡时间。
在《自然计算科学》杂志发表的一篇新科学文章《使用生活事件序列来预测人类生活》中,研究人员分析了 600 万丹麦人的健康数据和劳动市场联系,这些数据被整合到一个名为 life2vec 的模型中。
经过初期训练,即学习数据模式之后,该模型在预测如人格特质和死亡时间方面,已被证实超越其他先进的神经网络,并表现出高度的准确性。
“我们利用这个模型探讨了一个基本问题:基于过去的条件和事件,我们能在多大程度上预测你未来的生活事件?对我们来说,科学上激动人心的不仅是预测本身,而是那些使模型能提供精确答案的数据方面,”DTU 教授 Sune Lehmann 表示,他是该文章的首席作者。
死亡时间预测
Life2vec 的预测是对诸如“四年内死亡?”这样的常见问题的回答。
当研究人员分析模型的响应时,发现其结果与社会科学领域现有的研究成果一致;比如,在其他条件相同的情况下,领导职位或高收入的人生存几率更高,而男性、技术工人或有心理诊断者的死亡风险更高。
Life2vec 通过一个庞大的向量系统对数据进行编码,这是一种组织不同数据的数学结构。模型根据
出生时间、教育、薪资、住房和健康等因素,决定数据的位置。
Sune Lehmann 说:“令人兴奋的是,我们将人生看作是一连串事件的长序列,就像句子由一系列词汇构成一样。虽然这通常是 AI 中 Transformer 模型处理的任务类型,但在我们的实验中,我们使用它们分析被称为生活序列的事件,即人生中发生的事件。”
引发伦理问题
文章的作者指出,围绕 life2vec 模型的道德问题包括保护敏感数据、隐私以及数据偏见等问题。
在模型被用来评估个人患病或其他可预防生活事件的风险之前,必须更深入地了解这些挑战。
“这个模型为讨论和处理正面和负面影响打开了大门。今天,类似的技术已被科技公司用于预测生活事件和人类行为,例如追踪我们在社交网络上的行为,极其精确地分析我们的行为特征,预测并影响我们的行为。这种讨论应成为民主对话的一部分,以便我们考虑技术发展的方向和是否符合我们的期望,”Sune Lehmann 表示。
研究人员表示,下一步将结合文本、图像或社交联系等其他类型的信息,这种数据的使用为社会科学与健康科学之间的交流开辟了新的途径。
研究项目
该研究项目《使用生活事件序列来预测人类生活》基于劳动市场数据、国家病人登记处(LPR)和丹麦统计局的数据。
这些数据包括所有 600 万丹麦人,并包含收入、薪水、奖学金、工作类型、行业、社会福利等信息。
健康数据集包含医疗专业人员或医院的访问记录、诊断、病人类型和紧急程度等信息。
数据集涵盖 2008 年至 2020 年,但在多个分析中,研究人员专注于 2008-2016 年期间及特定年龄群体的子集。
Transformer 模型
Transformer 模型是一种 AI 深度学习数据架构,用于学习语言和其他任务。
这些模型可以经过训练以理解和产生语言。
Transformer 模型旨在比以前的模型更快、更高效,通常用于在大型数据集上训练大语言模型。
神经网络
神经网络是一种受人类和动物的大脑和神经系统启发的计算机模型。神经网络有多种类型(例如 Transformer 模型)。与大脑类似,神经网络由人工神经元组成,这些神经元相互连接并能互相发送信号。每个神经元接收来自其他神经元的输入,并计算出一个输出传递给其他神经元。神经网络可以通过在大量数据上训练来学习解决任务。它们依赖于训练数据来提高学习和准确性。一旦这些学习算法被精确调整,它们就成为了计算机科学和人工智能中的强大工具,能够快速对数据进行分类和分组。其中最知名的神经网络之一是谷歌的搜索算法。