历史学家说,将现代计算机科学应用于遥远的过去,有助于将更广泛的历史记录建立联系,还可以纠正每次分析一份文件所产生的误解。但它也引入了自带的一些误解,包括机器学习可能会将偏见或伪造内容纳入历史记录的风险。所有这些都给历史学家和其他人提出了一个问题,他们通常认为要通过审视历史来理解现在,但随着机器在未来发挥更大的作用,我们应该把过去交给它们多少?
解析复杂性
通过将越来越多的历史文件数字化,大数据正在融入人文学科,比如美国国会图书馆收集的数百万份报纸页面,以及 19 世纪芬兰档案馆的法庭记录。对研究人员来说,这既是一个问题,也是一个机会:有太多的信息,我们没有好的方法来筛选它们。
随着帮助学者们分析复杂性的计算工具的发展,人们已经遇到了这一挑战。2009 年,奥地利科学院教授约翰内斯·普雷塞-卡佩勒(Johannes Preiser-Kapeller)审查了 14 世纪拜占庭教会的决定记录。普雷塞-卡佩勒意识到,理解数百份文件需要对主教的关系进行系统的数字调查,他建立了一个个人数据库,并使用网络分析软件重建他们的联系。
这种重建揭示了隐藏的影响力规律,导致普雷塞-卡佩勒认为,在会议上发言最多的主教并不是最有影响力的;他将这项技术应用于其他网络,包括 14 世纪的拜占庭精英,揭示了其社会结构通过隐藏女性的贡献来维持。他说:“在一定程度上,我们能够确定在官方说法之外到底发生了什么。”
普雷塞-卡佩勒的成果只是学术上这一流行趋势的一个案例。但在以前,机器学习常常无法从越来越大的文本集合中得出结论,尤其是因为历史文件的某些特性(在普雷塞-卡佩勒的例子中,书写混乱的希腊文)使机器学习模型无法解读它们。现在,深度学习的进步已经开始解决这些限制,利用模仿人类大脑的网络来挑选出大型和复杂数据集中的隐藏规律。
大约 800 年前,13 世纪的天文学家约翰内斯·德·萨克罗博斯科(Johannes de Sacrobosco)出版了一篇关于“地心说”的介绍性论文。那篇论文成为了早期大学生的必读书目。它是流传最广泛的关于地心宇宙学的教科书,即使在哥白尼于 16 世纪颠覆了地心说的观点之后仍能流传至今。
这篇论文也被收录于 1472 年至 1650 年间出版的 359 本天文学教科书的数字版数据集中,里面还包括成千上万的科学插图和天文表。在这个全面的数据集中,德国马克斯·普朗克科学史研究所的教授马特奥·瓦勒里亚尼(Matteo Valleriani)看到了一个调查欧洲知识如何向共同科学世界观发展和进化的机会。但他意识到,识别这个规律需要的不仅仅是人类的能力。因此,瓦勒里亚尼和柏林学习与数据基础研究所(BIFOLD,Berlin Institute for the Foundations of Learning and Data)的研究人员看中了机器学习。
这就需要将数据集分为三类:文本部分(关于特定主题的文字内容,有清晰的开始和结束);科学插图,有助于阐明月食等概念;还有数字表,用来教授天文学的数学方面。所有这些都给历史学家提出了一个问题:随着机器在未来发挥更大的作用,我们应该把过去让给它们多少?
瓦勒里亚尼说,文本内容可能无法被算法所解释。第一个原因是字体的变化很大。早期的印刷厂为他们的书开发了独特的印刷字体,并经常有自己的冶金车间来铸造他们的字母。这意味着,一个使用自然语言处理(NLP,natural-language processing)来阅读文本的模型将需要对每本书进行再训练。
语言本身也是一个问题。许多文本都是用特定地区的拉丁方言写的,没有接受过历史语言训练的机器通常无法识别。瓦勒里亚尼说:“这通常是自然语言处理的一个很大限制,因为你没有能训练的词汇。”这也是为什么自然语言处理模型对英语等主流语言更有效,但对古希伯来语等冷门语言的效果较差。
相反,研究人员会从原始材料中手动提取文本,并识别出一组文档之间的单个链接,例如,当一个文本被模仿或翻译到另一本书中的情况。这些数据被放置在一个图表中,该图表会自动将这些单个链接嵌入到一个包含所有记录的网络中。研究人员随后使用一个图表,来训练一种可以建议文本之间连接的机器学习方法。这就留下了文本中的视觉元素:2 万张插图和 1 万张表格,研究人员可以对它们使用神经网络进行研究。
“现在主义”
历史图像的计算机视觉研究也面临着与自然语言处理类似的挑战。里士满大学的数字人文学科副教授劳伦·蒂尔顿(Lauren Tilton)称其为“现在主义”偏见。蒂尔顿说,许多人工智能模型都是根据过去 15 年的数据集进行训练的,他们学会列出和识别的物体往往是当代生活才有的特征,比如手机或汽车。
计算机通常只识别具有较长历史的物体的迭代——比如 iPhone 和特斯拉,而不是配电盘和福特 Model T 车型。最重要的是,模型用来训练的通常是高分辨率的彩色图像,而不是过去的颗粒状黑白照片。这一切都使得计算机视觉在应用于历史图像时不那么准确。
“我们与计算机科学人员交谈,他们会说,‘我们已经解决了物体识别的问题,’”她说,“我们会反驳说,如果你拿一组 20 世纪 30 年代的照片,你会发现它还没有像我们想象的那样完全解决。”深度学习模型可以识别大量数据中的模式,它们可以帮上忙,是因为它们能够进行更大的抽象。
(来源:THE LIBRARY OF THE MAX PLANCK INSTITUTE FOR THE HISTORY OF SCIENCE, BERLIN)
在 Sphaera 项目中,BIFOLD 研究人员训练了一个神经网络来检测、分类和聚类(根据相似性)早期现代文本中的插图。现在,历史学家可以通过一个名为 CorDeep 的公共网络服务访问这个模型。他们还采用了一种分析其他数据的新方法。例如,在数百本书中,不同的表格无法直观地进行比较,因为“相同的表格有 1000 种不同的印刷方式,”瓦勒里亚尼解释说。因此,研究人员开发了一种神经网络架构,它根据所包含的数字检测和聚集类似的表格,而忽略它们的布局。
(来源:THE LIBRARY OF THE MAX PLANCK INSTITUTE FOR THE HISTORY OF SCIENCE, BERLIN)
到目前为止,该项目已经取得了一些令人惊讶的结果。研究人员看到了隐藏在数据中一种规律:当新教改革后,欧洲沿着宗教路线分裂时,科学知识却在融合。在新教城市德国维滕贝格等地方印刷的科学文本,由于改革宗学者的工作,已经成为一个学术创新的中心,在传播到整个欧洲大陆之前,曾在巴黎和威尼斯等中心城市被模仿。
瓦勒里亚尼说,新教改革并不是一个未得到充分研究的课题,但机器学习模型的视角让研究人员看到了一些新的东西:“这在以前是看不清楚的。”应用于表格和图像的模型已经开始展现类似的规律。
瓦勒里亚尼说,这些工具提供了比简单地追踪 1 万份表格更重要的可能性。它们允许研究人员从记录数据集中的规律里推断出知识的进化,即使他们实际上只检查了少数文档。他说:“通过看两份表格,我已经可以得出一个跨越大约 200 年的结论了。”
深度神经网络也在研究更古老的历史中发挥了作用。破译碑文和修复受损文物是艰苦的工作,特别是当刻文的物体被移动或缺少上下文线索时。专业的历史学家需要做出有根据的猜测。
为了提供帮助,DeepMind 的研究科学家扬尼斯·阿塞尔(Yannis Assael)和威尼斯福斯卡里宫大学的博士后西娅·索默希尔德(Thea Sommerschield)开发了一个名为伊萨卡(Ithaca)的神经网络,它可以重建缺失的碑文部分,并将日期和位置归为文本。研究人员表示,通过从大量数据中学习的深度学习方法——涉及对超过 7.8 万个碑文的数据集进行训练——是第一个可以同时解决恢复和归因问题的方法。
阿塞尔和索默希尔德说,到目前为止,这种方法正用来揭示来自古典雅典一个重要时期的法令碑文,它长期以来被认为是公元前 446 年和 445 年出现的,一些历史学家对这个日期有争议。
作为一个测试,研究人员在一个不包含相关碑文的数据集上对模型进行训练,然后要求它分析法令的文本。这产生了一个不同的日期。他们通过电子邮件说:“伊萨卡人对这些法令的平均预测日期是公元前 421 年,与最近的日期确定研究突破相一致。这显示了机器学习促进了希腊历史上最重要时刻之一的讨论。”
时间机器
其他项目则建议使用机器学习来对过去做出更广泛的推论。这就是威尼斯“时间机器”背后的动机,它是现在已经建立起来的欧洲几种本地化的“时间机器”之一,旨在从数字化的记录中重建当地的历史。
威尼斯的国家档案涵盖了 1000 年的历史,分布在 80 千米长的书架上。研究人员的目的是将这些记录数字化,其中许多记录从未被现代历史学家检查过。他们将使用深度学习网络来提取信息,并通过追踪在其他文档中出现的相同信息,重建曾经连结着威尼斯人的联系。
时间机器(Time Machine)组织的主席弗雷德里克·卡普兰(Frédéric Kaplan)说,这个项目已经数字化足够多的城市行政文件,可以捕捉过去几个世纪的城市纹理,使它有可能通过一栋栋建筑来识别不同时间点住在那里的家庭。卡普兰说:“这里有成千上万的文件,只有数字化才能达到这种形式的灵活性。这是前所未有的。”
发表评论