作者介绍
蒋杰,历史学博士,先后毕业于兰州大学、华东师范大学、法国里昂高等师范大学。上海市“青年东方学者”、“浦江学者”、法国艾克斯—马赛大学东亚系访问学者。现为上海师范大学人文学院副教授、“数字人文资源建设与研究”重点创新团队成员,法国艾克斯—马赛大学ENPCHINA项目组成员,主要从事中国近代史、中共党史、上海史、数字历史研究及海外中国档案的搜集与整理。
作品推介
《数字人文与史学研究》
蒋 杰 主编
上海三联书店
2023年出版
作品
/ 前 言 /
如果有人问到过去十多年中人文学科最热门的研究方向是什么?毫无疑问,基于自然语言处理、机器学习和数据挖掘等技术的“数字人文”(Digital Humanities)可以占据一席之地。大致以2012年为起点,数字人文相关研究开始异军突起。其巨大的影响力波及文学、哲学、史学和语言学等传统文科。上述学科几乎毫无例外地兴起了一股“数字化”研究热潮,并直接诱发了一个成果发表、课题立项和专业机构建立的“井喷期”。
面对滚滚而来的“数字洪流”,古老的历史学也难以“独善其身”。与其他传统学科一样,历史学不得不开始艰难的数字化转型,并由此催生出一个全新的研究方向——“数字历史”(Digital History)。作为数字人文研究的重要组成和分支,数字历史与数字人文共享着诸多价值与方法:都以数据作为研究的核心驱动,都强调数字工具与资源的运用,都推崇跨学科合作,且都尊重资源共享的理念等。当然,二者也存在着十分显著的差异,如统摄领域的不同、数据偏好的差异以及学科交叉程度的不同等。
在数字人文理念、资源和工具的加持下,数字历史研究在过去的十多年间获得了不可小觑的发展,不仅涌现出一批颇有见地的科研成果,还逐渐形成了一支年轻而活跃的研究队伍。随着认识论与方法论的不断成熟,其学科属性也日趋完整与独立。尽管如此,作为一个研究方向的数字历史,仍存在着诸多亟待解决的问题——“首当其冲”的便是定义问题。数字历史“是什么”不仅关涉到自身的学科界定,更涉及与其他数字人文研究的区别。事实上,在过去的数十年间,已有不少学者对此展开讨论,并提出了很多各具特色的观点,但始终未能达成共识。纵观人类已有的知识谱系,恐怕很少有学科会如同数字历史一样,难以对自身做出清晰的界定。对于这一“身份窘境”,莫斯特(Scott Moore)的描述颇为形象。他写到“虽然历史学家经常使用‘数字史学’一词,它也频频为网络、出版物、访谈、学术会议或大学网站所用,但它却没有一个精确而具有共识的定义。不同的人和机构对它的使用既有关联却又不同。一方面,这是一个人人都能识别并可描述的词;另一方面,要对他人准确说明该词的定义又是十分困难的。”
造成这一困局的原因,除学者自身的知识背景不同,研究旨趣各异外,恐怕还与以下两点息息相关。首先、数字历史缺乏某种专属研究对象。与环境史、医疗史和景观史等新兴学科不同,数字历史无法将某种特定的人类过往活动,作为专有的研究对象。只能更多地从方法、工具和资料的维度,彰显自身的特性以及与其他学科的差异。其次,数字历史所赖以生存的数字工具和资源更新迅速,导致其研究生态始终处于不断迭代之中。处于技术消费末端的历史学者,不仅难以对当下不断变化中的数字历史做出及时、完整和准确的描述,更无法对其未来做出预测。“数字历史”也就因此成了一个动态的、持续发展中的概念。
数字历史需要直面的另一个问题,是如何处理与数字人文的关系。在数字人文研究的起步阶段,作为一种探索性、实验性学术活动,其方法、资源和工具都相对单一,不同研究方向间的共享程度较高。此时,以数字人文这样一个相对笼统的概念来指称这一类研究,是一个合乎逻辑且可以接受的办法。从最近十余年的科研实践来看,数字历史与数字人文的确存在某种从属关系,也就是说无论在理论还是实践层面,数字历史都应被视作数字人文研究的一部分。然而,随着研究的不断深入,尤其是在数字人文所统摄的不同学科之间,越发表现出不同的研究旨趣,发展出不同的研究方向,研究对象越发细分之后,继续使用数字人文来指代不同学科间的数字化研究实践,就显得不合时宜了。例如,从事数字历史研究的学者,可能更关注历史上的空间演变及其后果,或更倾向于对较长时段的数据统计进行分析,以揭示某种趋势和模式。而从事文学研究的学者,则可能更关注词频统计、情感分析和社会关系网络等。客观地说,尽管在工具和资源上存在某些共通之处,但却不能将这两类研究目标与对象完全不同的科研活动视为一类。这个道理就如同虽然都以科学实验作为研究的出发点,但我们却不能把化学和生物学等而视之一样。
令人遗憾的是大多数“圈外人”常常把数字人文与数字历史混为一谈,即使一些专业学者也很难说清二者之间十分模糊的区隔,或完全缺乏这种自省。事实上,这也是目前在一些传统科学中广泛存在的“泛数字人文”现象的反映。这种“言必称数字人文”的趋势,不仅将过度透支数字人文的学术声誉,同时也会对数字历史的发展产生不良影响。上文提到的数字历史的“身份困境”,或多或少就是这种不良影响的后果。
面对方兴未艾的数字历史研究,学界对其理论、方法和未来的讨论屡见不鲜。在中文世界,除黄一农、金观涛、刘青峰等早期探索者的著作外,项洁于2011年推出的《数位人文在历史学研究中的应用》,是较早对此领域展开深入讨论的一部著作。该书集中体现了在当时的技术和资源条件下,数字理念对史学研究的影响。6年之后,随着“大数据”概念的兴起,一股“言必称大数据”的浪潮席卷中国大地。受此影响,大陆学界在当年推出了《大数据时代的史料与史学》和《大数据时代的历史研究》等两部著作。由于主题相近,二者讨论的内容也颇为类似,都聚焦于数字历史的发展趋势、数据库建设以及数字历史的研究方法等。这两份成果较为全面地反映了当时国内学界对数字历史的认知与理解。
伴随数字人文研究的大行其道,大量被冠以“数字人文”的专著、刊物在此后数年间纷纷亮相,一批国外学者的研究著作也很快得到翻译引进。一个数字人文论著的爆发期就此来临。不过,数字历史似乎没有搭上这股大发展的“东风”,不仅学术关注度未能获得显著提升,论文的发表也没有实现数量的稳步增长,更遑论大规模、系统性著作的问世了。《大数据时代的史料与史学》和《大数据时代的历史研究》的出版距今又过去了6年。在此期间,计算机设备、数字化和数据化资源以及网络环境又发生了新的变化。我们不禁要问中国的数字历史研究在这一阶段取得了什么新的进展?出现了哪些新的研究趋势?对数字历史今后的发展产生了哪些新的思考?在具体的研究实践中,学者们又遭遇了什么障碍和困难?尤其值得关注的是,自OpenAI推出基于大语言模型的Chatgpt之后,历史学的教学和研究又将面临怎样的挑战?以上都是历史学者尤其是从事数字历史的研究者不得不考虑的问题。
为回答上述疑问,我们特邀了一批长期从事数字历史研究的学者,分别从理论、资源和案例等三个方面分享他们的最新成果与发现。“理论篇”主要针对数字历史的现状、困境以及未来展开评估。在谈及数字历史的现状与前景时,王涛指出,数字史学的良性发展,需要从云端走入学术研究的日常。需要在研究中,将数据驱动与论证驱动结合起来,真正以问题意识为指引,才能带来更专业的成果呈现(第一章)。描述性微观史和解释性宏观史的竞逐,一直是史学研究的主旋律。如何调和两者,则是一个长期困扰历史学者的难题。为此,梁晨和李中清在他们的论文中提出了“中观”概念。作者们指出,随着数字化时代的到来,历史学者可以通过建设和研究大规模量化数据库来打造“中观平台”,从而沟通微观与宏观,构成弥补两者断裂的“桥梁”(第二章)。进入数字化时代后,面对数量与形态都空前扩容的历史资料,如何对它们进行有效开发与合理解读,真正实现“大数据分析”,成为当下所有历史学者共同面临的难题。以明清社会经济史研究为例,赵思渊与潘芸淇指出,面对数字化带来的一切变化——尤其是方法和工具层面的变化——破解上述难题的关键,就在于学者能否将工作模式由“检索-获得”转为“建置观察史料的数字环境”(第三章)。
数字资源的建设与利用构成了“资源篇”的核心议题。“巧妇难为无米之炊”,在数字时代,将数字化和数据化了的各类历史文献视作史学研究赖以生存的“战略资源”似不为过。因此,是否掌握数字资源的检索技巧,能否获得充足的数字资源,成为一项史学研究能否成功的关键。张志云、王国强和赵龙等三位学者,分别就数字资源的建设、获取和利用展开了深入探讨。张志云以“数字化中国”(Digital China)数据平台为例,相详细介绍了如何将图像史料与地理信息系统相结合,打造可视化数据平台的步骤。此外,他也就近代英侨在华生成的图像史料的价值、意义与利用方式进行了深入考察(第四章)。王国强以汉学研究的数字资源为例,详细讲解了各国官方和非官方、开放与非开放数字资源的收录情况。他还十分细致的介绍了在搜索网络资源时必须注意的种种技巧(第五章)。赵龙由“古籍文献数字资源述略”切入,详细分析了在使用搜索引擎进行文献检索时的各种技巧和注意事项。此后又通过数个案例分别对如何进行类书、丛书、政书、方志的检索展开了详细说明(第六章)。
数字历史研究,除理论探讨和资源宣介外,还必须落实在一个个鲜活的研究个案之上,方能展现其科学、高效以及与众不同之处。因此,在“案例篇”我们围绕文本挖掘、图像研究和量化分析等主题,组织了一些研究成果。林文思、陈静、张琨和杨云的研究,借由文本挖掘的方式对传统文献《山海经》展开了考察。作者们通过对书中的色彩词汇进行统计与意义分析,较为系统地梳理和复原了先秦时期中国色彩知识的表达与流变。该个案为历史学者如何将传统议题转化为量化研究,以及如何在常见史料中发现新问题、找到新的诠释方式,提供了一个成功的案例(第七章)。夏翠娟的研究,以遴选自上海图书馆家谱知识服务平台的1240种涉及湖北麻城的移民家谱文献为例,分别从理论和实践层面分析了如何借助数字人文的研究方法和工具,对长游离于“正史”之外的家谱文献进行处理。此外,这一研究也对如何重新认识家谱的史料价值,以及如何促进家谱的深度开发和有效利用,展开了深入地探讨(第八章)。在图像研究方面,林宏的论文为我们提供了一个如何将数字化之后的古地图与数字工具相结合的案例。他以一幅已佚失的1590年绘制的拉丁文单幅中国大地图为研究对象,讨论了对欧洲早期西文古地图开展数字化研究的功用(第九章)。余开亮和董建波的研究则以清代粮价和民国时期杭县地权演变为例,向我们详细展示了在研究资料和研究工具愈发数字化和数据化的今天,如何将数据分析和空间分析相结合来考察一些传统议题,进而获得一些异于前人的知识与发现(第十、十一章)。
毫无疑问,本书既无法也不可能将过去6年间中国大陆学界有关数字历史的研究成果“一网打尽”。此外,数字理念、工具和资源一日千里的发展,决定了数字历史乃至数字人文的研究,将始终处于不断迭代和更新之中。因此,任何数字历史的著作都难以逃脱“明日黄花”的命运。不过,作为数字历史发展之路上的一块小小的“铺路石”,我们还是希望这本小书能为学界,尤其是对数字历史和数字人文抱有兴趣的年轻学人提供些许启示和经验,无论是正面的还是负面的。希望这颗小小的种子,能在数字历史的花园里开出大大的花。
编者
2023年6月1日
/ 目 录 /
目录
前言
第一章 数字史学:现状、问题与展望
第二章 从微观数据到宏观历史:作为桥梁的数字史学
第三章 “利用自然科学供给我们的一切工具” ——明清社会经济史研究中的议题、史料、数字工具
第四章 历史图像与数字人文应用 ——以“数字中国”数据库为例
第五章 数字资源与学术研究
第六章 数字化古籍文献检索与利用
第七章 数字人文方法下的《山海经》色彩知识研究
第八章 文化记忆视域下家谱文献价值的再认识和内容的 深开发
第九章 早期西文古地图的数字化解析:以已佚1590年 单幅中国大地图为例
第十章 清代粮价的空间格局及其演变(1738-1820)
第十一章 20世纪30-40年代的阶层结构与地权配置 一以浙江省杭县为例
发表评论