量化数据库:“数字人文”推动历史研究之关键梁晨内容提要近几年来,大数据研究和“数字人文”逐渐走进了中国史学界,各种主题的史料数据库建设和“数字人文”研究开始出现,一场新的学术潮流仿佛正在形成。但对这一多学科综合的新事物,很多学者对其认识和运用还很有限,存在盲区与误区。实际上,“数字人文”虽然包含着丰富的新研究手段与方法,但历史研究和历史资料有着自身的特点和复杂性,在当前的技术条件下,并非所有“数字人文”研究方法都能很好地适用于史学研究。从研究角度看,作为“数字人文”的重要组成,量化数据库的建设与研究能有效地实现对大规模、连续性史料的分析,促进多种史料或史料库的相互链接,利于开展群体性、长时段和合作化的历史研究,在帮助史学家探知更多新史实的同时,实现史学理论的演进和研究范式的创新,是“数字人文”推动历史研究的重点所在。关 键 词量化数据库数字人文大数据史学方法史学范式历史研究 作为人类近20年来最重要的发明,互联网深刻而全后开办了相关主题的暑期培训班,华中师范大学历史学 面地改变了人类社会。或许是因为信息传递和交流的复院也开设了大数据历史研究生班,南京大学历史学院的 杂程度存在着根本差别,相对于互联网技术对商业经营、 王涛老师也在2016年秋开设了国内首个本科生数字史学 社会生活以及诸多理工、应用学科的深刻影响,其在人文课程。
更多的学术机构和团体则在这两年密集地举办了 领域的运用,除了在知识、材料的电子化存储和便捷检索一系列重要的学术会议。2015年9月《中国社会科学》杂 方面取得了重要进步之外,对研究和教学等核心领域的志社与辽宁大学联合举办了“互联网与哲学社会科学”跨 影响还相当有限。这可能是因为人文学科无论是在研学科论坛,同年12月上海大学与《中国史研究》杂志社联 究、创作方面,还是在传递知识和开展教学方面,都需要合举办了“大数据时代下的历史研究”国际研讨会,这应 有一定深度和复杂性的思想,其所依托的语言文字等表是国内历史学界第一次举办该主题学术会议。2016年 1 达载体要庞杂许多。因此,如何让人文学科受惠于互联月,由哈佛大学、北京大学和台湾“中研院”三方合作组建 网技术的发展成为了对当下人文学者的挑战之一,“数字的、在国际学界影响广泛的“中国历代传记人物数据库” 人文”正是在这种背景下在欧美学界迅速兴起。由于时(英文简称 CBDB)项目组在北大举办了“数字人文工作 间短、方法新,当前国际学界对什么是“数字人文”的看法坊”,5月北大图书馆主办了首届“数字人文论坛”,6月中 并不统一。大致来说,“数字人文”是指结合各种数字化国人民大学《清史研究》编辑部举办了“数字人文与清史 的材料,借助电脑的分析能力开展的人文研究。
研究”学术工作坊,11月《史学月刊》编辑部与南开大学最近几年,中国史学界对“数字人文”研究表现出强历史学院又举办了“大数据时代的史料与史学”青年论坛 烈的兴趣。上海交通大学、清华大学和北京大学等校先等。 162量化数据库:“数字人文”推动历史研究之关键热闹的场景固然鼓舞人,但海外先行者的经验却表化,构建成可适用于统计分析软件的数据库并进行量化 明,很多“数字人文”研究计划开始时轰轰烈烈,但最终对研究。量化数据库研究多以“大数据”为基础,关注材料 学者研究的影响或推动却未必尽如人意。“数字典藏国的系统性和可量化数据平台的构建,重视对长时段、大规 家型计划”是由台湾学术界与政府联合推动的大型“数字模记录中的各种人口和社会行为进行统计描述及彼此间 人文”项目。该项目投入巨大,也整理出了浩瀚的史料, 相互关联的分析,以此揭示隐藏在“大人口”(BigPopula③ 但多年来,不仅一般史学家对此兴趣不大,在研究中很少tion)中的历史过程与规律。 利用,甚至那些参与了这一庞大项目的史学家们也几乎量化数据库的基础通常是系统化、结构化的资料,以① 不借助这些新资源、新平台开展研究。 而十年来,CBDB 便使用统计软件开展量化分析。
或许是受20世纪70年 开发研究团队不仅数字化处理了大量的中国古籍史料, 代国际计量史学研究中出现问题的影响,当下的历史学 还开发出或链接了很多具有想象力和原创力的数字化分家们对待量化方法并不都是欢迎或支持的。如有学者认 析工具,但依靠该数据库开展的专门研究目前依然不充为“所有的历史问题之所以重要就在于它难以被量化所④ 分,如何更好地发挥CBDB在历史研究中的作用也成为该回答” ,但从20世纪90年代以来至21世纪头10年,在 团队这两年重点反思和努力的方向。如今,当“数字人国际史学界,计量史学的理论与方法非但没有被淘汰,反⑤ 文”开始在国内史学界兴起时,我们应特别重视这些“前而已经走向了常态化。 对有志研究人类社会的学者来 车之鉴”,在重视史料数据化处理与永久保存,重视开发说,无论他关心的是历史还是现实,都必须掌握数据分析⑥ 各种新技术手段的同时,更应关注如何能通过“数字人方法而不能成为数据的奴隶。 依靠量化数据库,学者们 文”来扎实、有效地推动史学研究。对大量的系统数据材料进行了统计分析,发现了很多隐现阶段,数字技术至少已在三个较成熟的方向上推藏在海量史料中无法依靠传统阅读发现的新知识、新现 动着历史研究。
一是信息或关键字词的检索;二是多样象,西方学界也就产生了“依靠数据库发现知识”(Knowl⑦ 化动态展示,如GIS技术的引入与地图绘制等;三是基于edgeDiscoveryinDatabases)的说法。 需强调的是,西方 大规模历史数据的量化分析研究。尽管三种功能对研究社会科学界所谓的Database一定是可量化分析的数据 都很重要,但第一种在技术层面相对基本,并不能直接触库,而不是我们常见的各种文献资料库。 动研究的核心。不过在现实中,很多人文学者对“数字人量化数据库的开发与研究对历史学而言,至少有两 文”的使用恰恰停留在检索阶段,并不能利用整理和分析方面非常重要的意义:一是丰富了历史学研究的方法论 材料,甚至有学者认为“数字人文”对研究的最大作用不与范式;二是能有效利用大规模材料,实现不同材料的彼 过如此。国内史学界目前多数冠以“数字人文”“大数据” 此链接,推动大规模、合作化研究形式的出现。首先,作为 或“数据库”的研究项目,则往往只是将文献材料扫描后人文学科的历史学,其研究通常是对已知人类社会现象 存储在电脑里,既没有为材料构建系统,也不具备任何检的理解或解释,是“问题驱动”的研究范式。
但量化数据 索分析功能,更遑论后两种功能了。即便少数能够提供库研究不同,它从大规模、系统化史料的统计、运算出发, 检索功能的数据库,也“只是将过去的纸本印刷进行数位通过数据分析发现新的史实或现象,再以此为基础,重构 化后原封不动地搬置于网上”,“检索不过是索引功能的我们的历史认知与理论,是一种“数据驱动”下侧重于发 强化”,其“逻辑仍是传统的,并没有因应数位化时代的前现而非解释的新研究范式。“数据驱动”是信息科学概 进,而有新的变化”。这种“文献数据库”解决的只是史料念,运用到人文与社会科学界,更恰当的表述应为“量化 存储问题,或能兼及检索及远程查阅等,尽管也有着重要数据驱动”(Quantitativedatadriven)。数据驱动下的历史 的学术价值,但数字化后的史料却仍无法直接被电脑分研究,学者们要学会从文献叙述中发现问题转变为从数 析,新技术没有能真正介入研究的核心,还算不上真正的据分析中发现问题,提出问题并依靠数据计算确认现象② “数字人文”。并尽可能地解释现象。因此,“数字人文”尽管是依靠现真正的“数字人文”研究,其构建的数据材料应该能代电脑技术发展起来的,但它绝不仅是一种技术,而是一⑧ 直接被电脑分析,特别是能被统计与运算,这也是“数字种方法论意义上的新研究范式。
人文”在历史研究中最重要的使用。“数字人文”研究需其次,量化数据库可以不断延展、连接,具有很强的 要构建的是量化数据库,而非文献数据库。所谓量化数生长能力。在数字技术的帮助下,很多分散的材料彼此 据库是统指各种能够涵盖一定地域范围的、具有一定时可以被迅速链接,再经过量化分析能深入展示其意义与⑨ 间跨度的整体性大规模个人或其他微观层面信息的系统价值 ,这其实也是“数据驱动”范式的价值表现。香港 (一手)资料。这些资料按照一定的数据格式进行电子科技大学李中清、康文林教授研究团队最近两年在开展1632017.2 项洁编:《数位人文研究的新视野:基础与想象》序,(台北) “清代缙绅录量化数据库”构建与研究项目。清代《缙绅① 录》是历年全国官员的信息登记材料,对分析清代整个国台湾大学出版中心2011年版。 项洁、魏稷安:《数位人文和历史研究》,载项洁编《数位人文 家的官员任命与政治体制甚为关键。在项目进行过程② 中,该团队发现这一数据库很容易也很有必要和李中清在历史研究的应用》,(台北)台湾大学出版中心2011年版,第11~22页。 教授早年构建的“清朝玉牒数据库”、哈佛大学 CBDB数 关于量化数据库的定义及其在历史学中的运用,可参见梁③ 据库中的清代进士数据、台湾中研院的“清代职官数据晨、董浩、李中清《量化数据库与历史研究》,《历史研究》 库”以及厦门大学刘海峰教授领导的“清代举人数据库”2015年第2期。
等链接,能够极大地扩展数据库的分析范围与深度。我 Thomas.W.G.,“ComputingandtheHistoricalImagination”,in④ 个人目前开展的“民国上海大学生信息数据库”项目,依S.Schreibman,R.Siemens&Junsworth(Eds.),ACompanion 托系统的民国大学生学籍资料,收集了多数民国上海大toDigitalHumanities,Oxford:Blackwell,2004,pp.56~68. 学的学生个人及家庭信息,其中有大量的上海家庭地址 王旭东:《20世纪历史学传统嬗变和方法论的计量化》,《甘⑤ 数据,在与掌握民国上海街道地理数据的相关GIS项目团肃社会科学》2015年第5期。 Hudson,P.,HistoricalbyNumbers:AnIntroductiontoQuantita 队合作后,这些数据得到了有效解读,对理解学生家庭在⑥ 上海城市中的具体分布以及背后隐含的家庭社会地位、tiveApproaches,NewYork:OxfordUniversityPress,2000,p. 阶层属性等问题极有帮助。
数据的无限链接,给研究者XVII. WilliamJ.Frawley,“GregoryPiatesky-Shapiro,andChristo 提供了传统环境下难以达到的深度来认识社会、事件和⑦ 群体。pherJ.Matheus,KnowledgeDiscoveryinDatabases:AnOverview”,AIMagazine,Vol.13,No.3,1992,pp.57~70.“数字人文”的兴起能为传统的历史学研究带来前所 HeinrichBest,“TechnologyorMethodology?QuantitativeHistor⑧ 未有的变革机遇,但史料和历史研究有其自身特点,数字icalSocialResearchinGermany”,ComputersandtheHumani 技术如何与此衔接、融合是一大难点。我们认为重视量ties,Vol.25,No.2/3,1991,pp.163~171. 化历史数据库的构建与研究有助于形成新的史学研究范 陈诗沛、项洁、何浩洋、杜协昌:《〈明清台湾行政档案〉引用⑨ 式,推动史学研究发展,或是解决难题的关键之一。而随关系之重构》,载项洁编《数位人文研究的新视野:基础与想 着量化数据库建设的展开,数据共享和联合研究便会变象》,(台北)台湾大学出版中心2011年版,第85~116页。
得越来越必要和关键。CBDB项目领导者,哈佛大学东亚 王宏盨、徐力恒、包弼德:《服务于中国历史研究的网络基础⑩ 系包弼德(PeterBol)教授最近就提出,随着数据库、研究设施》,(台北)“第七届数位典藏与数位人文国际研讨会”会 项目和中国文史数字人文研究群体的不断扩大,中国历议论文,2016年12月。 史学界应尽快考虑建立相应的网络基础设施(Cyberin frastructure),以便促进技术与数据的共享和人才智力协作者简介:梁晨,1979年生,历史学博士,南⑩ 同的合作研究。 因此,中国历史学者们必须尽早思考和京大学历史学院暨中华民国史研究中心副教授。 建构起合理、有效的数据开放与使用规则,推动史料数据〔责任编辑:潘清〕 库的共享和链接,从而更好地服务学术研究。 164
发表评论