数字人文与中国历史研究
北京大学历史学系教授 邓小南
本文原刊于《中国文化》2021年春季号
进入21世纪,我们处在一个压力明显增长的时代。历史学界面对着创新的挑战,出现了许多新的探索和尝试,“数字人文”是其中重要的路径之一。这些年来,学者根据各自不同的研究实践,提出过多方面的建议与质疑,体现出对于“数字人文”走向的高度关注。
一、新的学术活力
最近二三十年来,海内外人文领域、信息领域的诸多学者持续贡献心血与精力,希望为人文学科研究方式的提升与转变创造条件。“数字人文”是数字化、智能化环境下多学科汇聚的学术增长点,为人文学科的发展提供了新方法,注入了新活力,也在某种程度上突破了传统史学的格局,使一些有赖于大量数据处理的研究成为可能。
我个人是传统式的史学工作者,并不熟悉“数字人文”技术及其运作方式。但我和大家一样,都受益于“数字人文”发展的成就;不仅研究中离不开各类电子资源,而且阅读、思考与写作的方式都在随之发生变化。
历史研究者是面向历史,也是面向未来的。人文学科需要积累与传承,需要拓展学术空间,激活学术潜力,这种内在需求,使当代学者一直追求学科融通,不断寻求新的发展路径。这是推动“数字人文”进展的根本动力。我们看到,作为信息科技与人文学科的交叉,“数字人文”是迄今为止理念最为开放、成就最为显著的跨学科研究与运行方式。它的产生和推进,是基于“数字”与“人文”双向的需求与驱动。它将计算工具与方法引入人文学科,也使科技工作者逐渐理解历史学的学术语境,从根本上突破了彼此之间的学术壁垒。“数字人文”的发展,架构起跨越学科界限的桥梁,拉近了人文学者与信息科技工作者的距离,提供了多学科交流的平台和全新的研究工具,开辟了更加广阔的思考界域和学术天地。
就历史学而言,所有成就的基础,无非来自“材料”与“议题”二者,来自二者的结合。穷尽史料“竭泽而渔”,是史学研究的重要前提;材料搜讨是否充分、处理是否得当,效率高低,是决定研究成败的关键。数字人文的工作重点,也在于材料挖掘、文本分析;文献、图像、考古资料以及视频音频的转化处理,是其强项。数字人文技术的介入,所针对、所尝试突破的,恰好是从历史学关键的基础性节点起步。
就我们历史系师生常用的古籍文献数据库来说,大多是基于纯文本的数据呈现,其主要功能为检索查询。数据库材料范围宽泛,排列随机性强,查询者如果主题与关键词设置得当,不仅会增补史料,而且可能纠正先入的观念,一些原本潜在的问题也会凸显出来。例如,利用数据库观察词频的分布,观察某些词语在特定时期的密集出现,可能发现一些带有时代趋势性的议题;又如,查找某些文本的史源,通过搜寻比对雷同文字,往往有不少纸本阅读之外的发现;有些本不熟悉的关键词,也可能在检索过程中意外“跳”出来。透过不断追问,即便是字面的检索,也可能支持并且引导学者的深度研究。如学者所指出,数据库提供的检索方式,类似于索引,“本质上都是揭示人类知识内在关联的认知方式”,“索引揭示的知识规则,是构建新媒体时代人类知识体系的基础,也是实现知识发现新方案的基础”。知识系统的有序性和关联性,在数据互联的网络体系中得以呈现和把握。[1]此类数据库,作为人文研究的基础工程,不断朝往便捷、高效、准确的方向努力,已经被学界广泛接受与利用。
目前,专题性数据平台建设不断得到扩充,整合式文献数据库的建设有了显著的成果,服务于特定研究项目的个性化、订制化的数据库也开始兴起。像莱顿大学魏希德教授(Prof. Hilde DeWeerdt)主持开发的MARKUS就是一个针对中文古籍进行半自动标记和分析的开放性平台,它允许学者在原始文献与各种分析和可视化工具之间自由切换,便利学者建立自己的文本数据库,从事智能化、个性化的学术操作。
历史上笔与纸的出现、印刷术的出现都为知识与学术思想的生成、传布创造了新的条件。如今数字人文技术的出现,也促成了新的记载、阅读与研究方式。数据质疑学者的假设,也可能印证学者的思考。过去需要多年积累才有可能注意到的议题,现在相对容易凸显出来。作为历史学者,我们都有这样的体会:阅读中产生的问题、形成的积累,在写作过程中要不断检索新的材料,补充质证;搜讨效率的提高,使研究者得以更加专注于深度议题的探究。
阎步克、邢义田、邓小南等《多面的制度:跨学科视野下的制度研究》,生活·读书·新知三联书店2021年版
人文学科“知识”的形成,有赖于整理提炼;历史学处理的材料,往往是对于有形事件、人物、制度的叙述,而这些内容背后,将方方面面勾连为一体的,事实上是无形的结构性“关系”。哈佛大学费正清中心、台湾中研院史语所与北京大学中国古代史研究中心合作建立的CBDB(中国历代人物传记资料库)正是关系型数据库的一个范例。这些年,已经出现了越来越多经过深层开发的、关系型分析型的数据库,逐渐深入到文本整理、资料挖掘、知识链接的层面,超越“检索”而致力于“发现”。学者无需学习编程,就可以访问大量结构化的数据。人文学者与信息学者都在此基础上进行了多方面富于活力的研究尝试。
二、新的“互联”尝试
互联网的优势在于“互联”。信息科技原本是专门的学术领域,通过“互联”,如今已经成为学术的风尚。数字与人文有不同的学科特点,也有拓宽天地的不同要求。二者的连结,不仅在于计量,而是希望深化学术内涵,有效延展观察历史的“平台”。近年来,国内十馀所高校先后成立了数字人文研究中心,出版相关期刊杂志,其成果不仅有数据库,也有各类专题互动网站,并且开设了面向不同层级学生的教育项目,搭建起“数字人文”国际合作联盟计划。
复旦大学历史地理研究中心与哈佛燕京学社共同开发建设的“中国历史地理信息系统”(China Historical Geographic Information System)项目,构建时间序列下的空间基础数据,成为历史地理学界重要的学术增长点。在此基础上进而衍生出HGIS(Historical or Humanities GIS)。[2]历史本来是在时间和空间中流淌,空间不仅是自然地域,不仅是演生历史活剧的静止舞台,历史上的“空间”本身也是一种社会建构。CBDB与CHGIS的互联,呈现活动于时空之中、相互关联的“人”,从而可能刺激新的研究题目,形成新的研究契机。
跨越学科界限、疆域界限的议题互联,学者互联,使研究交流的方式发生了根本性的改变。收藏在世界各地的不同资料得以广泛利用,切磋往复、知识探询与传播的手段发生了前所未有的变化。针对全球性问题,交换意见的渠道也极大地丰富起来。2020年疫情期间,德国马普科学史研究所(Max Planck Institute for the Science of Human History)的朋友三月中就发来视频、音频,在北京大学人文社会科学研究院的平台上,向公众介绍“数字人文与历史上的灾害研究”。
一波一波专题性、结构型数据库出现在面前,与时俱进的前沿感和新鲜魅力激发出研究的活力。多种类型多重手段的互联,使历史学者有了新的工作方式、新的延展平台,有了更多量化统计与质性研究的对话;有可资调遣的新手段用以处理“老”问题,也会面对“数字人文”带来的新问题。与此同时,也开始了学术机制的重组重构,开始了大跨度文理交叉的试验与实践过程。
“数字人文”已经取得诸多成就,但总的来说,还是处于起步阶段;其应用价值,需要学者们在学术研究的实践中来探讨和验证,可以在反馈反思的基础上促使其性能的进一步提高。追索某类主题的数据库,在将描述性文本转化为量化数据的过程中,可能会使立体叙述扁平化,也可能过滤掉某些看似不直接相关的内容,造成历史信息的衰减。如何使数据库层次类型丰富适用,准确、方便、完善,是人文学界和信息学界面临的共同任务。
“数字人文”不仅是一种技术,不仅是人文学者使用渐多的查询检索方法,也体现着传统治学方式与数字技术关联融通的开放态度;它开启了新的研究窗口,改变着我们惯用的工作方式,也不同程度地影响着我们组织学术议题的思维方式。我们不宜将其与人文学科的终极价值、人文学者的学术想象力对立看待,而应当意识到,“数字人文”的应用为我们提升研究水准、回应多面相问题提供了新的可能。“数字人文”要登上新的台阶,有赖研究者针对计算技术“提问”,这与我们的学术视野、学术前瞻力相关。这是一个逐渐趋于完善的过程——尽管绝对的“完善”永远不会“一劳永逸”地实现。作为人文学者,我们是这一过程的观察者,也是参与者、亲历者。人文学术与计算技术的“知己知彼”,双方的沟通与契合,对我们是一挑战。“数字人文”技术的完善,不能仅靠期待、“仰赖”;研究者的实践,实践中提出的议题、发现的问题,正是推动相关技术手段纠错、细化的必要条件;而所谓“范式更新”、“思维革命”,则要靠研究者自身基于新条件、新可能的努力。
邓小南《宋代文官选任制度诸层面》,中华书局2021年5月版
从古到今的技术、知识与思想,无不靠“人”的追求与创造而生成;迭进更新的技术、知识、思想,时时刺激、推动着人类文明的进程。无论目前数字化还有多少不足与改进的空间,这一基本潮流终归会不断向前发展。我们有理由相信,只要具备清醒的认识,就能依靠“互联”的持续探索、共同的学者智慧引导“数字人文”的方向与历程。
三、新的融通期待
世界文明的发展,对于文明的研究,从来都是跨时代、跨地域、跨学科的。在文明对话的大潮下,今天的“数字人文”领域,可以极大拓宽研究视野,也正是国际交流、合力互通的典范。诸如中国古代史研究中常用的“数字人文”学术研究平台DocuSky、CBDB、CHGIS,以及汉语料标注平台MARKUS、地方志分析平台LoGaRT,都是多方合作的结果,也都惠及国际学界。
数据库是靠有心人制作完善的,归根到底也是服务于有心人的。任何学术方式,都不可能成为简捷单一的倚赖工具。我们不能将“数字人文”的研究方式与传统考证方法对立起来。尽管看起来积累不足的初学者容易从数据库中受益,而事实上,研究毕竟不靠寻章摘句,真能充分利用数据库优势而不致被其限制的,首先是具备史学训练基础、具备清晰问题意识的学人。有位长期参与数据库工作的朋友跟我说:“我们要用数据库;对于数据库有哪些问题,也要清楚才行。不然,会出大问题。”这也恰恰说明,数据库的完善,必须有人文学者参与。
历史学是反思的学问,处理的对象是纷繁世界的实质关联。平面表浅是史学研究的大忌。我们关注“历史表象的背后”,如何调度材料、形成联想、深度开掘、恰当组合,如何从字里行间透视研究对象的来源、结构关系和层进脉络,这些特有的追求,在“大数据”的洪流下,应该得到支持、发展,而要避免被遮蔽的可能。
资料的全面、精准,是数据库提高有效利用率的前提。好的系统,要方便使用,才能充分发挥效能。人文学科特有的属性,使其不会仰仗固定统一的资料处理标准和研究模式;其学科素养,又离不开对于历史文化现象的感觉与体悟。这种特性化的需求,对“数字人文”的功能提出了很高的要求。建设检索项目界定清晰、选择性功能完备、多版本比对方便、反馈纠错机制便利、与相关数据库功能衔接的检索平台,将是人文学界的重要福音。
任何技术进步,都有类似双刃剑的两面。有实质的帮助,也会带来挑战——对此要抱持“历史性”的态度。追捧与贬抑,既是对“数字人文”前景的伤害,也是对自我学术天地的限制。就历史学者而言,数据库在一定意义上降低了我们搜集资料的难度,使得论文数量大幅提高,研究领域有所拓展;但我们要清晰地看到,“数字人文”对历史学者的素质提出了更高的要求:既然不能仅靠材料的熟悉夺得先机,辨析与追问的能力高下会更加凸显。一个有意思的现象值得注意:目前批评过度依赖数字化的学者,往往不是对于“数字人文”一无所知的人士,许多批评者是在国内较早推动史料数字化的“先驱”。他们的分析与提醒从长期研究实践中来,应当引起重视。“数字人文”研究方式的广泛应用,应该是人文学科得以深化的路径。我们要十分警惕急功近利导致“表浅化”的可能,警惕满足于表层文本的提取和简易的量化排比,警惕不注意社会文化的综合背景而轻易达成结论。
史籍的数字化不会自动带来史料的“大发现”。数据库促成了学者搜检材料的便利,但经验告诉我们,仅靠语词搜讨无法完成真正的研究;只有自文本阅读起步且有所积累的学者,才能充分瞭解并且利用语词及语词组合完成检索的目标。检索出来的大量语词数据,如何筛检过滤,也要靠相关知识的日常蕴蓄。[3]更为重要的是,技术更新了,学业探究的要旨却没有轻易改变,深入研究仍然要靠“读书得间”。这正像南宋大儒朱熹所说:“读书,须是看着他那缝罅处,方寻得道理透彻。若不见得缝罅,无由入得。看见缝罅时,脉络自开。”[4]这“缝罅”存在于字里行间,要靠体悟,靠“穷究”与“痛理会”。
《长路:邓小南学术文化随笔》,北京师范大学出版社2019年10月版
各类数据库协助我们抓取文本,观察文本间的关联;而非字面的深层领会,只能靠我们对各类史籍、对田野、对历史遗迹的“触摸”,靠我们内心的感悟,靠自身实践与思考来摸索形成。“数字人文”的深度发展、其成果的出现及其充分利用,都与人文学科的深度发展相伴相随;加强问题提炼、材料阅读与辨析的训练,仍然是学人不容忽视的基础与责任。
注释:
[1]参见史睿《论中国古籍数字化与人文学术研究》,载《春明卜邻集》第119—141页,南京:凤凰出版社,2020年;《上海书评》2020年8月9日“史睿谈数字人文与现代文献学研究”。
[2]参见“数字禹贡”:
[3]参见包伟民《数字人文及其对历史学的新挑战》,载《史学月刊》2018年第9期,5—12页。
[4]黎靖德编、王星贤点校《朱子语类》卷十“学四·读书法上”,北京:中华书局,1986年,第162页。
本文为作者2020年6月6日在“北京论坛”云端国际论坛系列“数字人文视角下的中国历史研究”上的发言,有增补修订。
相关链接
关注北京大学历史学系官方微信公众号
发表评论