什么时候才能实现用机器研究历史？-米儿火

大概在四五十年以前吧，美国历史学界曾经出现过一种崇尚以统计数据来撰写论文的热潮。不仅优秀的研究要大量使用数据，即便是一般性质的研究也要放很多所谓“统计结果”。这一风潮之下出现了一些比较机械的研究，简单介绍情况就开始堆数据，仿佛“数据覆盖面有多广，写出来的历史覆盖面就有多广”，而历史的本质：经验、感觉、物质或情感的联系、媒介等等则受到轻视。这些工作本身不一定切题，又或许作者的“统计”完全是建立在对历史实践一知半解的基础上。其结果是，生产了不少空有一堆数据、底层框架或问题出发点却（事实上）错误的研究。

我做的一个研究是关于清代翰林的升转速度和途径，这个研究在1980年代的时候有一位香港学者吕元骢曾经做过，然而今天看来他的研究结论意义非常有限。为什么？第一，他能看到的史料比今天我们能用的要少，这是客观条件所限，暂且不论。第二，也就是更重要的一点，他没多少政治制度史的文献可以参考——从参考文献来推测，他能看到光绪朝的《清会典》，但从研究内容判断他没能细读；他大多数关于清代政治制度史的知识，都是从一本1926年约翰霍普金斯大学（呃这学校还真是清史重镇啊）的博士论文里扒出来的，然而这篇博士论文（作者叫谢保樵，Pao-Ch'ao Hsieh，现在亚马逊上还能买到这本博士论文）的错误却很多。比方说，谢保樵觉得清朝人一次升迁只能升半品，吕元骢就给当成官员升迁的标准拿到了论文里，但事实上升迁经常不是半品，甚至还有降品升迁的（对，升了官，官品反而下降，典型例子就是正五品给事中升从五品鸿胪寺少卿）。这么做的后果是，吕元骢——论学界辈分他大概得算我爷爷辈——虽然干了很多机械性的工作（说得明白点儿，“数数”），但正是那些靠机械方法搞不定的东西反而致命。

当然，也应该看到历史研究是在演进的，人习得的知识，可以教给机器。特别是近些年出现的大文本方法，对文本的吸收能力比单凭数据肯定是要强。然而我们不要忘了，历史研究的本质是通过表相（史料）寻找过去的本相，而这种本相只能在人的意识中感知，而不会出现在另一种表相中。1980年代出现“文化史转向”后，历史学主流重新转向了文本解读与诠释上，便是考虑到先前的教训——历史知识的作用毕竟不是简单的一两条结论，故事本身经常比结论重要。事实上，现在的大文本方法，也仍然有这种问题：通过文本方法能捕捉一些“联系”、抓出许多数据，但这些东西背后所蕴含的非文本因素，既然其价值与影响决定于人类阅读获知它们时的情感，那么对历史的判断和把握，也就不能舍弃人工。

这并不是说量化历史无意义。事实上，随着定量社会科学研究的兴起，历史学研究当中有许多领域早已“社科化”进而变为定量研究，这一部分的量化乃至机器自动处理都是可以做到的。我之前听过一个报告，基于当地报纸数量、销量等等研究两次大战之间德国和波兰两座城市的公民政治参与问题，这种研究显然机器化就很容易。然而更多的领域没有被剥离出来，往往更像“人文”而非“社科”，这时候机器学习能帮上多大忙？我对此是颇有怀疑的。比如说，高王凌先生早年间研究18世纪中国部分省份的粮政筹划，这种研究里没有数据，文本也多是只言片语，含义必须结合语境（想想给文言文切语料的恶心程度吧……）来理解，这种东西即便未来有机器学习前景，大概也得很久很久以后了。——当然，可能机器学习的支持者们眼里只有“已经整理好的数据”和“已经切好语料且译为标准英文语句的史料”才算“历史”吧。

说了这么多废话，其实核心就是一点：机器学习可以简化历史研究，但它不能实现历史研究。历史学工作最底层的一部分，恰恰就是把那些关于过去的、混沌不明的记忆（无论是实物承载的记忆还是生物结构里的记忆）转化为今天的人们（或者“今天的机器”）可以理解的知识——这一步其实是在机器之前的。即便在这一步之上的解读、诠释及利用语言共情的方式产生意义，往往也并非机器所能染指。所以我觉得魏希德教授她们MARKUS那一摊的方向是正确的（虽然现在清史还用不上），与其研究自动生成结果，不如先研究研究怎么生产出历史研究的中间态，也就是更方便研究人员解读和比较的一些中间内容。

事实上，关于过去的结论我们可以得出几千几万条，但最终给我们这些研究者以及千千万万读者留下印象的故事却不是很多。故事的感染力和启发性，是一个很难解释的问题——或许在未来，咪蒙开发出了一个AI专门写稿，然后有人把这个AI拿来写论文，自动抓取几条并不充分的史料还能写得声情并茂、催人转发。这种加速人类毁灭的情况我就先不考虑了。

此外，学术研究质量也应该被考虑进来。近些年历史学部分领域里的论文写得倒是越来越机械了，题目关键词换一换，同样的史料里搜索关键词换一换，就是一个崭新的博士。这种研究要是用机器学习来替代的话，我是没什么意见的，节省下来的人力哪怕去工地搬搬砖也是好的嘛。

不过有一个思路倒是可以留给各位试图在科技大发展时代抢历史学者饭碗的人去探讨。各位与其把精力花在虚无缥缈又意义不明的史料上，不如直击物质世界本身。反正人的情感、记忆本质上也就是神经里的电信号和线粒体里的一些蛋白质或者核酸之类，只要能模拟出这些大分子的变化轨迹，就相当于回溯了历史。或者说，如果我们能获知当前世界足够多的分子、原子状况，然后整个回溯出N年以前世界的组成，包括那一时刻世界上所有人的位置、动作、情感等等，这样也就不需要靠什么史料来复原历史了，更不必争论“谁说的更客观”，一切历史谜案也就通通得以解决；比如康熙死的时候到底想传位给谁，我们可以检验他死之前的神经信号，看看更像是“一般人说出皇四子三个字时的信号”还是“一般人说出皇十四子时的信号”。——慢着，以我可怜的物理学知识，我知道赵凯华那本《量子物理》上说过“量子态不可复制”的问题，不过万一后人特别厉害、可以违背物理定律，又或者干脆在致远星上发现了冰封亿万年的先行者遗迹呢？（踢飞

————

我觉得吧，没有真正搞过历史研究、没有深入阅读过一大类史料的人，还是对史料这种东西的复杂程度有点敬畏感才好。《清会典》算是中国史里写得最浅明易读的政治制度手册了，清史学界又是中国史里从业人数最多的领域，你看有几个人能真正把这玩意搞懂的，遑论转换成机器能解读的东西……

为您推荐

什么时候才能实现用机器研究历史？