21世纪是数字化走向数据库化进而走向智能化的时代。目前世界各国都在加紧本国文献的数字化并对业已数字化的文献进行数据挖掘,建立各种类型的数据库,并结合最先进的现代科技,向智能化的方向迈进。在这样的背景下,中国古代文史的研究何去何从,也是我们业内人士必须思考的问题。
海外关于中国研究的四大数据库和平台
中国历代人物传记数据库(CBDB)是“China Biographical Database project”的简称,网址为:。该项目由美国哈佛大学东亚语言与文明系教授包弼德(Peter K.Bol)主持,合作单位有北京大学中国古代史研究中心和台湾“中研院”历史语言研究所。CBDB是目前世界上最大的中国历史人物传记资料分析数据库,迄今上线的中国历代人物已有40万人之多,此外中国地方志等其他数据源近50万人的数据也在源源不断添加中。该数据库不仅能查找一个人物的生卒年、字号别名、籍贯、科举仕进等最基本的传记资料信息,还可以查找一个人物的亲属关系、社会关系,并将其可视化。该数据库目前向公众免费开放,使用者可以在线查询或将数据库(access)下载到本地电脑查询。
譬如,当我们利用access数据库查到宋濂的社会关系并想将其可视化的时候,可以将查找的数据保存为网络分析工具Pajek或Gephi的存储格式。
中国历史地理信息系统(China Historical Geographic Information System)由包弼德主持,项目经理为贝明远。它是一个开源性质的中国地理信息系统网站,网址为:~chgis/。该项目与复旦大学史地所合作,将中国历史地名和历史地图矢量化,并且以关系型数据库的方式记录地名的层级及沿革信息,由此凡涉及中国古代历史地名的,都可通过数字化的中国历史地理信息系统进行可视化的展示。网站提供了中国历史地名经纬度的查询和中国矢量化历史地图的下载。矢量化历史地图包括点(points)和多边性(polygon)两种类型。
世界学术地图(Worldmap)是哈佛大学地理分析中心(the Center for Geographic Analyisis)开发的一个全球地理信息研究成果发布和共享平台,网址为。其中,中国部分包括了人口统计、宗教、交通、城市研究、少数民族和语言、能源、环境、教育、气候、公共健康、经济、历史等诸多领域的地理信息和地图。譬如,与文史有关的,有明代进士分布图、明清驿站路线图、金华文人社会关系地理分布图、1820年中国寺庙分布图、明代卫所分布图等。
文本自动标识平台(Markus)是由荷兰莱顿大学中国史教授魏希德(Hilde De Weerdt)主持的数字人文项目,其网址为:。该平台利用CBDB的数据库及其他数据库,将读者上传的古代文献文档自动标识,读者可以对自动标识出来的结果进行编辑修改,并可将最终的结果导入数据库,进行定量统计分析。此外,读者还可对标识的字词进行点击,平台的右侧会自动出现该标识字词的相关信息,如果是地名或名物字词,平台还具有可视化功能。
海外人文数据库建设对我国古代文史研究的启示
加紧建设中国古代文史地理信息数据库。地理信息与人类活动息息相关,就单个人物来说,包括人物的籍贯、行迹、社会关系的地理分布;就群体来说,包括一个群体的地理分布和迁徙轨迹;就非生命的物体来说,也有其存在、分布和变化的区域和轨迹;就一个地方来说,则又包含了既往时间里人、事、物等地理信息的总汇。根据笔者的初步统计,《中国古籍总目·集部》各类型的作者有16000余人(不包括子部中的小说类作者),如果按一、二、三流作者的标准衡量,历代一、二流的集部作者至少也有几百人。而这类作者及其作品的地理信息,就包括了作者著述的地理分布、作者社会关系的地理分布、作者籍贯的地理分布、作品所涉及地名的地理信息、作者的个人行迹路线、某一时间点全国作家所在位置等地理信息。这些地理信息都需要我们进行调查、著录,配上经纬度,建成数据库。
加紧建设中国名物图片数据库。中国古代文学作品中有着大量的名物词语,如动植物、器皿、药材、器械、服饰等。这些名物词语,即便有了文字的释义,有的还是不能得到清晰的认识。但如果配上图片,则使人一目了然,印象深刻。实际上,古人已经做过这方面的工作,譬如,关于《诗经》《离骚》之类的作品,都有对其中的草木虫鱼进行注释并配有图片的著作。像《本草纲目》这样的中医药著作,也配有大量的图片。但是,古代文献中的图片,大量的还是以纸本或电子扫描本的方式存在,今人鲜有对其挖掘和标识,并建立可供查询和可视化数据库。从魏希德主持的文本自动标识平台中可以知道,只有将文本和图片建立成一一对应的数据库格式,才能对文本进行自动化标识和可视化呈现。
加紧建设学术地图发布平台。虽然中国学者可以将自己的研究成果在哈佛大学的Worldmap上发布,但也存在着一些问题。其一,Worldmap的服务器在哈佛大学,受防火墙的影响,虽然我们可以访问Worldmap网站,但速度非常慢。其二,Worldmap所使用的地图底图和图层没有九段线,不符合中国的法律。因此,有必要在中国境内建立面向中国学者乃至海外学者、适合中国国情的学术地图发布平台。浙江大学与哈佛大学于2017年10月13日签订了合作共建学术地图发布平台的协议。根据协议,浙江大学将对哈佛大学的Worldmap安装系统进行改造,开发出面向中国学者的学术地图发布平台,其服务器将设在浙江大学。由浙江大学社会科学研究院与哈佛大学地理分析中心共建的“学术地图发布平台”()于2018年3月19日上线发布。
加强文史数据库建设
浙江大学“大数据+人文学术地图创新团队”于2017年4月成立,隶属于浙江大学社会科学研究院。团队主要由人文学院、地球科学学院、计算机科学与技术学院的老师组成。团队主要围绕海量的中国文史数据与地理信息的结合展开数据库的建设和空间分布的可视化分析,打造中国最大的文史地理信息和学术地图发布平台。
目前,围绕结合中国文史数据与地理信息展开的数据库建设和空间分布的可视化分析,项目组已经建立起多项数据集成果。现已发布至平台的数据成果及学术地图包括群体性数据和个体性数据两大类。群体性数据根据对象可分为人群分布数据与物群分布数据两种:人群分布数据如《全宋文》《全元文》《全元诗》《列朝诗集小传》中的诗文作者分布,以及明清戏曲作者、明代妇女作者、清代妇女作者、清代戏曲演员、宋代江西文学家、宋代江西进士、历代正史中的列女、清代藏书家分布、浙江古今人物、浙江富阳县职官表(汉代至明代)、万历十五年文人活动地点图等;物群分布数据主要有浙江集部著述总目、清代江西作者别集、清代江苏集部著述的地理分布以及浙江古塔分布等。个体性数据目前主要有人物行迹图与社会关系图两种,涉及的古今人物有汤显祖、宋濂、沈周、屈大均、竺可桢、蒋介石、曹禺等。这些数据成果及学术地图不仅以统合结果的形式呈现,亦提供相关的具体数据点信息。如查看《全宋文》作者地理分布图,不仅可知《全宋文》作者的地理分布概况,亦可对其中具体某位诗人的相关籍贯,所在《全宋文》册数、卷数乃至页码等信息进行识别与查询;《清代妇女作者分布图》还提供作者小传、文集著录信息等;《浙江集部著述总目》可以按地点查询浙江历代集部著述的书名、作者、版本及收藏地;汤显祖行迹图不仅可查看汤显祖行迹路线,亦可识别与查询其于具体某点活动的时间及活动事迹等。
优化平台,建设数据库
浙江大学“大数据+人文学术地图创新团队”今后的目标包括两个方面,一是“学术地图发布平台”的优化和研发,二是数据库建设。在平台建设方面,主要是进一步优化平台、开发APP及超链接功能的支持等。譬如,平台目前已经实现了字段的跨图层检索功能,即输入数据库中的一个字段,如作家的名字,即可快速定位多个图层中含有这一作家的地理位置,获得这个作家在图层中的其他信息。今后,希望引入更加强大的搜索引擎功能,可以根据需要搜索所有图层的任何信息。APP的开发,可以使用户随时随地查询学术地图的信息。而超链接的功能,则可以使平台对接任何其他平台的数据库,在实现平台自身大数据汇集中心的同时,也成为连接其他网络平台的桥梁。譬如,对接出版社和图书馆的书目平台,则使出版社和图书馆的书目作者和书本所涉地在地图上有了可以直观呈现的地理位置,这对于地域文化研究将起到十分重要的作用。
在数据库建设方面,一是要建设一批有社会影响的文史地理信息数据库。譬如,对于古代文学,我们希望能建设一批古代文学的地理信息数据库,包括群体作家籍贯的分布、著述的分布、作品写作地点及内容所涉地点的分布、一二流作家的行迹图、按时间序列作家的活动地点等。在地方志和家谱方面,我们希望对社会比较关心的古今地方志和家谱进行数据挖掘和整理,建成数据库,发布到平台上。二是做好数据的征集、动员和管理工作。我们的平台是一个开放的平台,大家都可以注册在上面发布自己与地理信息相关的研究成果。研究经济的,可以发布人口迁徙、销售状况的数据;研究环保的,可以发布空气质量的数据;研究交通的,可以发布交通路线的数据;研究宗教的,可以发布寺庙道观教堂的数据;研究文史的,可以发布历代官员、进士分布的数据;研究动植物的,可以发布动植物分布的数据;等等。总之,人事物都有地理信息,一切与地理位置相关的数据都可以在这个平台上发布,供读者查询。我希望学校能发动全校相关的专业都来建设与本专业有关的地理信息数据库,发布到这个平台上。
我相信,经过若干年的建设,这个平台最终能成为一个大数据的汇集中心,所产生的数据可以为政府决策、科学研究及社会服务提供重要的参考。
(作者系浙江大学人文学院教授)
发表评论