目前约有100万份中世纪的文献不能确定年代,这使它们的历史重要性大打折扣。现在,自动化的计算机技术有望给历史学家的工作带来革命性的改变。
如何保存财产和土地交易的记录,从而完善地建立起所有权制度并解决纠纷,这对任何社会来说都是至关重要的。在中世纪的英国,这一过程在很大程度上是由宗教和皇家机构实施的,他们用拉丁语文献的形式保存这些记录,名曰“契据”。
今天,大约有100多万份契据被保存下来,有的是原始文献,更多的是原件的古代复制品。它们为今天人们了解10世纪至14世纪间英国的政治、经济和社会状况提供了非常好的依据。
比如,历史学家可以利用这些文献来研究军事和宗教组织的兴衰。对耶路撒冷圣约翰医院勋章的研究就是一个很典型的例子,耶路撒冷圣约翰医院是在11世纪西方对耶路撒冷的征服(即第一次十字军东征)之后建立的宗教和军事组织。
历史学家表示,这份契据清楚地显示该组织是如何为响应1145年的第二次十字军东征的号召而逐步军事化的。起因是由于穆斯林军队占领了当地多座城镇。
显然,这些文献有巨大的历史价值,但存在一个问题:大多数契据都没有标明年代,在1066年至1307年的诺曼人统治时期尤其如此。
留给历史学家的问题是要找到方法按时间顺序排列这些文献。但这是个很困难的任务。
多伦多大学教授盖利拉•蒂拉洪(Gelila Tilahun)和他的同事们探讨了这一难题,大致提出了他们用来解决这个问题的新的计算机统计学技术。
他们的方法是,使用10000份署有年代的一部分契据,考察所使用的语言随时间的变化情况,以此来确定其他契据的年代。比如,他们表示“amicorum meorum vivorum et mortuorum”这个短语(意为:我活着的或死去的朋友)在1150年至1240年间很常见,在其他年代不常见。而“Francis et Anglicis”这一称呼(意为“到法国和英格兰”)在1204年英格兰将诺曼底割给法国后就逐步消失了。
一份中世纪时期的契据
不过,这个统计方法要比仅仅考察常用短语严密得多。蒂拉洪和同事们使用计算机对出现一次、两次、三次等单词的分布方式进行搜索。他们表示:“我们的目标是开发出一套算法,通过纯计算的方法让对年代缺失的契据进行断代的过程实现自动化。”
这一方法在他们试图对单个文献进行断代的测试过程中展现出多种模式。他们表示,最好的方式是用最流行的技术:这一统计技术通过将文献中的单词集合与训练集中的分布情况进行比较,得到可能性最大的年代结果。
蒂拉洪和同事们表示,他们的方法也有其他用途。比如,同样的技术可以用来推断文献的作者是谁,也可以排除赝品,而赝品的数量可能是巨大的。
那么这种方法实际用起来如何?蒂拉洪和同事们给出了一则关于一份中世纪英格兰的契据的趣闻。这份契据是在尼亚加拉大瀑布附近的布鲁克大学图书馆的一个抽屉中发现的,上面没有署年代,许多历史学家都试图推断出它是何时所写。开始的推测是在14世纪,但不久又改为13世纪。最终,一位学者通过和其他记录的比较,确定这份契据作于1235年至1245年间。
蒂拉洪和同事们受到媒体对这份契据关注的启发,对其使用他们的自动化方法进行了估计。他们带着点儿得意地表示:“我们获得的估计数据显示是1246年。”真不错!
---------------------------------
此文由MIT Technology Review 中国大陆地区独家授权,更多精彩内容请搜索官方微信”mit-tr",同我们一道关注即将商业化的技术创新,分享即将资本化的技术创业。
发表评论