24 社会科学文摘 | SOCIAL SCIENCE DIGEST热点专题 | 大数据时代的人文社科研究随着互联网、计算机技术的发展,大数据时代对历史研究的冲击在所难免,历史学也面临挑战与机遇并存的命运。当前内容庞大、功能多样的数据库与日俱增,历史研究所面对的数据环境越来越健全。面对这样的学术环境,一些学者提出了对历史学发展的思考,一些学者则凭借大数据时代的独特环境,开展了一些新的史学研究实践。大数据时代中的历史研究是一条正在探索的道路,计算历史学可能会成为历史研究发展的一个趋向。建设与尝试:历史学研究中的“大”数据运用面对大数据时代对史学的冲击,史学界已然进行了一些勇敢的建设与尝试。所谓的“建设”是以积极心态为营造更好的数据环境而进行的建设;所谓的“尝试”是在大数据时代的环境下进行史学研究的新尝试,主要是利用海量网络数据以及规模较大的“数据库”进行。在数据环境的建设方面,台湾地区是先行者,最先开始探索以实现全文检索为目标的古籍数字化。早在1985年,台湾“中央研究院”历史语言研究所便启动了“汉籍电子文献资料库”的建设工作,内容包括“二十五史”“十三经”,以及“超过两千万字的台湾史料、一千万字的大正藏”、道藏、清代经世文编等大型类书、丛书,收入典籍达460多种,计4亿多字。
1999年香港迪志文化出版公司出版“文渊阁四库全书”电子版,该数据库以超过7亿字的规模成为当时最大的数据库。进入21世纪,以全文检索为基础的数据库发展迅猛。台湾雕龙中国古籍全文检索数据库起始于2001年,在2013年时已声称收入古籍文献约20000多种,近25亿字,且以每年新增5000种文献10亿字的速度递增,数年后将成为全球第一的超大型中国古籍全文检索数据库。大陆方面在数据环境建设的方面起步晚于港台,但是近年来成果显著。在古籍数字化方面成就最为突出的是北京爱如生公司。2001年该公司与北京大学刘俊文教授合作,研发制作“中国基本古籍库”,该库分4个子库、20个大类、100个细目,精选先秦至民国历代重要典籍,总计收书1万种,单库全文超过17亿字。目前爱如生公司已陆续推出包括中国近代报刊库、中国方志库、中国谱牒库、中国类书库等在内的大型数据库14个;包括四库系列、别集丛编系列、历代碑志系列、地方文献系列等在内的9个系列共82个专题数据库;包括明清实录、永乐大典、四部丛刊等在内的数字丛书库50个。另外还有“原文影像版数字原典”产品8个、“全文检索版拇指数据库”9类1000个产品。由北京时代瀚堂科技有限公司推出的《瀚堂典藏》,分为古籍数据库、近代报刊、民国文献大全三大主体部分。
全库共包含有15000多种古籍,25000种民国报纸期刊,近4000万条记录,汉字总量超过40亿。近年来湖南青苹果数据中心有限公司提出创建“华文报刊文献数据库”计划,将从清朝嘉庆年间至今两百年的4000种报刊中挑选十分之一进行数字化,形成拥有4000亿汉字和4亿篇文章的海量历史文献库。以上仅是能实现全文检索的大型综合数据库,除此以外,还有规模较小的全文数据库,如书同文古籍数据库、中华经典古籍库;或专题数据库,如中国金石总录数据库、东方杂志全文数据库;以及不能实现全文检索的大型数据库,如“大成故纸堆”系列数据库、晚清期刊全文数据库(1833-1910)、民国期刊全文数据库(1911-1949),中美百万册数字图书馆、国家图书馆民国图书、民国期刊数据库、读秀学术搜索,等等。在企业行为之外,史学界也对数据建设进行了探讨。2013年8月,教育部社会科学委员会历史学学部年度会议进行了“历史资料的整理、研究和数字化建设”的专题研讨。2010年以来国家社科基金支持的以数据库建设为核心的文史研究项目就有近70项,其中隶属于“中国历史”学科门类的重大项目有6项、重点项目1项、其他类别2项。虽然目前数据建设还未臻成熟,但是史学界一方面已经认识到了建立相关专业数据库的重要性,同时也意识到数据库对推动研究的促进作用。伴随着日益丰富的数据环境,有一些史家利用数据库或创建数据库展开新的研究尝试,获得史学研究的新突破或开创了新领域,涌现出一些代表性的成果。首先是台湾黄一农教授提出的“e考据”。自2005年以来,黄教授始终号召并实践着这种“大数据时代”大数据时代下的历史研究文/马建强
发表评论