因新冠肺炎影响,近半年高校等研究单位的师生大都避疫在家,无法正常利用图书馆资源。自2020年4月起,“文献挖掘整理研究会”决定举办线上文献沙龙,以助力文史学者更好运用线上资源、推进学术研究。本文选编自第一场沙龙“瘟疫时期的网络资源”文字稿,内容聚焦于疫情期间线上数字文献的更新情况。
引言
“文献挖掘整理研究会”,起源于2015年青年学者建立的微信群“文献挖掘机学校”,是由青年文史从业者自主发起的民间虚拟团体,主要成员由北京大学、清华大学、南开大学等高校文史专业师生、出版社古籍整理及数字化从业者、从事文献挖掘的有识之士等组成,已俨然成为一个小的学术共同体。
如何充分利用这个时代的特殊便利,吸收新知识、整理旧文献,做出超越前人的研究,并在基础科研教学中有意识地将这些经验、教训有效地传递给下一代学人,乃至展望新的学术规范与学术范式,是学会一直在关心,并期盼更多人关心的问题。期盼通过此次沙龙的多元对话,助力文史研究者系统梳理新公布的电子资源、审视现有检索平台的优劣得失、反思检索方式与检索需求的匹配度,并展望更能满足研究需求的新一代学术搜索引擎。
本次沙龙邀请北京大学、清华大学、复旦大学、南开大学、安徽大学、台湾“国立清华大学”、中华书局等单位不同专业领域的学者,围绕“瘟疫时期的网络资源”“学术检索的过去现在和未来”“古典文献资源的整合与导航”“中华书局的数字资源与使用”“史实数据的关系表达”六个议题展开研讨。前两场为圆桌对谈,后四场为专题演讲。第一场以“瘟疫时期的网络资源”为主题,由张昊苏(文学博士、南开大学文学院讲师)、段宇(史学博士、日本学习院大学文学部助教)、未曾(书格网创始人)与高树伟(北京大学中文系博士生)一起参与研讨,在梳理现有电子资源的基础上,观察各收藏单位在瘟疫影响下的不同举措,反思古籍数字化进程及知识生态。
未曾:因为疫情,一些图书馆意识到读者没办法到馆借阅,特别是海外一些图书馆,资源更新的幅度都还是挺大的。
至少台北故宫博物院还是树伟兄告诉我的,我其实以前没太注意。我以前只知道他们公布的首页的影像。其次,我知道的就是关西大学(),还有一个就是日本内阁文库(),也公布了一些。另外,京都府立京都学历彩馆()他们把一些老的资源(界面)翻新了一次。其实他们有很多东西,我觉得是应该去整理出来的。台北故宫博物院()应该是比较重要的,它大概公布了可能有大概2000多种。因为没有办法直接查到它已经公布的数据,只是我个人估测。
从2003年到2013年,台北故宫博物院所藏文献都有公布,公布的批次不一样,影像质量和格式也不太一样。这是台北故宫博物院新的界面,需要注册账号,注册应该是很简单,不过好像是人工审核。
台北故宫博物院“善本古籍资料库”
注册只要简单填一下信息,通过之后就可以登录进去了。登录前得下它的影像程式,就是一个小程序。那是他们自己开发的一个专用阅览器。但它那个版本不太好用,我发现有同样的程序不同的版本更好用一些。
接下来是日本关西大学()。关西大学最近公布了一批东西。还有一个泊园文库,这个是最近更新频次比较大的。然后,它新加了一个映画相关的,就是民国时期电影相关资料。
日本关西大学公布的资源库
京都府立京都学历彩馆(),其实它早期公布的是另一个版本,后来它改版了。改版过后,其中有个系列是一些宋板的大藏经零本。还有内阁文库,最近更新了大概300多种资源。
前面是故宫,TTSIMG是我自己下的台北故宫博物院的阅览器。比台北故宫博物院它自己公布的稍微好一点点,它可以打印。台北故宫博物院好像限制了打印的功能,因为台北故宫博物院格式比较特殊,没办法转出。
段宇:就像未曾先生提到的一样,内阁文库、关西大学,他们都进行了定期更新。实际上是在既定的工作流程中所进行的更新,并不能看作是为了疫情而特意进行的更新。当然,这些数据库的定期更新为数不少,也颇有可观之处。比方说国文学资料馆,他做的几个电子文献数据库有一定的影响,本次更新幅度也比较大,特别是藏书印数据库,还有另外一个上至江户时期的出版广告的数据库。这些对于近世文献的研究,特别是版本学方面的研究都是很有意义的。
另外,对于学术机关来说,东大史料编纂所在最近推出了一个日本古文书数据库,在网上数字化公开,也进行了较大幅度的更新。
这一时期日本商业公司主动进行数据库公开也有例子,一所成立于1979年的出版社皓星社就在瘟疫时期公开了近代以来报纸广告的数据库。这是明确提出鉴于疫情而主动公开数据库的事例。皓星社位于著名的古书店街神保町,受到疫情冲击很大,整条街区都被东京都的政府劝告停业。它在4月1号到5月31号这个期间内公开了自制的报纸广告数据库,供近代史、传媒史等方面的研究者使用。
其他官方的机构,也有在疫情期间做全面地公开档案的尝试。福井县立档案馆(福井県立公文書館),首先全面公开了馆藏的数字化档案。这个公开可以看作是永久的行为,并不是一个限时性的公开。因此可以期待它对今后福井地方档案研究的推动。
如果对近代的出版物以及对日本近代相关的其它课题有兴趣的话,可以抓住这段时间来访问上面提到的这几个数据库。
高树伟:日本在公布古籍电子资源方面还是非常积极的,我们也非常期待一些重要的藏书单位像静嘉堂文库(),继续推进古籍数字化工作,包括明清时期一些重要的稿抄本。前一段时间看到日本金泽文库好像也发布消息说要公布一些资料(主要是文书),这方面段宇、未曾两位先生更熟悉一些。
日本“静嘉堂文库所藏宋元版”数据库
我自己关注的另外一件事,尤其是在这样一个特殊时期,各大高校等研究单位的动作。之前有关注到,像上海的高校,他们很早就搭建了数据共享平台,每所高校都有自己的数字化资源,把各自的馆藏贡献出来,一起放到共享平台上,复旦大学、同济大学、上海师范大学、东华大学等,凡是在这个区域里面的,他们都会把自己独有的资源拿出来给大家共享,形成一个庞大的数据共享平台。
上海教育科研数据共享平台
这一方面,上海、浙江以及天津的高校做得都非常好,而且他们的这种统筹规划、抱团取暖的意识都非常强。相对来说,北京在这方面比较落后,各大研究单位仍然比较独立,每所高校都有自己固定的一部分资源,很难做到高校与高校之间在数字资源方面的打通,“信息孤岛”现象越来越固化。数据联盟是一个非常有意思且非常有意义的工作,我想未来一定是数据共享的时代,高校等研究单位应该都会这样做,但目前还看不到某些高校往这个方向走,更多的还是传统、保守的藏书楼模式。
此外,出版社正在影响很多民间团体推动改善知识生态的努力。文史研究者大都对“国学大师”()比较熟悉,它整合了非常多工具书。因为出版社要自己研发APP,国学大师原本整合得很好的部分资源,像《现代汉语词典》《汉语大词典》等工具书在版权的规约下被迫下架。从研究者角度讲,想充分利用这些资源,确实出现了不少麻烦。在尊重版权的情况下,我们应该如何去找一些替代的工具,甚至探索一种可能的平衡各方利益的新知识环境?不知道大家有没有好的办法。我一直着迷于这个话题。
具体到工具书,我印象中好像有一个光盘版的《汉语大词典》。另外,国学大师还做了一个单机版的工具书集合,另外像搜韵()、汉典(),还有北师大做的汉字全息系统(),包括中华博物()网站的许多工具书资源,还有复旦大学,最近他们古文字研究中心也上线了简帛字词数据库()这样的数据资源,他们可能是伴随着纸质书的出版,也在考虑到数字化或者是以这种网络呈现的方式来提供给大家一些服务,还包括汉达文库,他们做的也比较早,而且做的东西也相对比较成熟。
最近各大高校也做了一些数字化工作,前段时间中央民族大学把馆藏的一些古籍都扫描上网了,现在好像有了IP限制,只对本校师生开放。复旦大学、中山大学等高校也都在做这样一些极有意义的工作。高校古籍数字化及对社会开放是未来的一个趋势,但让人遗憾的是,有些高校到现在也没有文献开放的意识。这次疫情值得每一所高校图书馆及各收藏单位反思。
最后要提的是,因为疫情影响,有一些商业数据库免费开放给高校使用,但高校图书馆担心大家访问量太大,就没有放到官网上,像书同文,所有单库对某些高校已经全部开放了,这些数据库免费使用大概会持续一段时间,很多学校没有把这个通知放在图书馆官网很明显的位置,所以大家看不到,导致错过利用,非常可惜。这也提醒我们,如果现在想掌握更多数据资源,就是要自己留心,到每一个商业数据公司的网站上去看一下链接,登录自己学校的VPN,看他们到底给学校开放了多少资源,你这样自己摸一遍之后收获更大,就知道哪些是真正向自己学校开放的数据了。
张昊苏:如果用刻板印象强行区分的话,可能文献学研究更侧重于寻找善本图像,而一般性的人文研究更侧重对资源的快速获取和查阅。
我最近一直关注红学的一些问题。从胡适以来,《红楼梦》的研究一定程度上就是文史研究范式的折射。《红楼梦》相关的史料出版了很多,影印、整理本都有,就数量而言,可能是其他研究都难以匹敌的。其中有一部书叫《枣窗闲笔》,这部书是脂砚斋身份最重要的一个“证人”,里面提到脂砚斋是曹雪芹的叔叔,但学界一度对其真伪有质疑。一个争议点,就是本书的递藏。朱南铣先生很早就提过此书曾由裕颂廷收藏,但一度遭到质疑。原因何在?如果去国家图书馆提原书,上面有裕颂廷的藏书章,不成问题。但是我们能够看到的影印本,都把印章删去了,仅就影印本来研究的话,此书的递藏就不容易找到依据,好像就成了朱先生没有依据的推测。当然,今天国家图书馆“中华古籍资源库”将此书的扫描版放到网上,我们可以清楚地看到印章,很多之前所谓的争议实际上也就不存在了。这一类的问题在文献研究中非常多。
枣窗闲笔原书首末叶书影
我觉得这个例子给我们了几点启示。第一,影印本未必可靠,甚至有时会误导我们。理想的情况是,最好每个人都能去调阅善本原书。当然这有时不易达成,那么我们非常需要有高清的、忠实原貌的电子版本。有的时候,同一版不同印次的内容也有细微差别,如果都能够有电子资源,一方面省去了四处访书的辛劳,另一方面有助于准确的比勘。再进一步来说,这其实还是个研究观念、研究方法的问题。文献研究者可能要对电子资源更加敏锐,才能够抓住一些新的问题,并且很好解决。如果再说远一点的话,这种电子文本的征引规范,可能也应该提上议事日程。能够图文对照的、高清的、忠实原貌的电子资源,可能比纸质的影印本、整理本内容更加可靠,而且提示给我们更多的信息。
再一个领域,可能更广阔一点,比如有的学者可能不研究比较专深的考据学、文献学问题,侧重于解读文本内涵,或者分析影响等等。这个时候可能更需要将各种文本、知识建立起链接,让材料围绕着议题运动起来。比如说脂砚斋的批语,数量很多,关系很复杂,如何来解读这些内容?可能需要通过一些关键词,比如作批时间、比如一些特殊的表达方式、涉及的关键情节等等,来将这些批语的逻辑关系逐渐理清楚。再进一步,这些批语在小说史、小说批评史上有什么地位?批评者大概具备什么样的知识水平和阅读量?他的批语与此前、此后的哪些批语或论著可能产生对话?也包括小说本身,一些故事情节、人物命名,可能与哪些文本形成互文关系?这里面有些是可以检索到的,有些是检索不到的。检索不到也分两种,一种是所在单位没有购买俗文学库,没有条件检索;另一种是文本之间的关系比较隐蔽,是“偷意”而不是“偷语”,一般的关键词检索未必能解决,需要更高端的检索技巧才可以。我自己在尝试思考这个方向,但是平心而论,从效率和准确性来说,一定是需要全文检索辅助的,甚至是需要一些人工智能,比如说加强版的自动笺注之类的,给研究者省下查找信息的时间,将更多的精力用在辨析文本的精微之处上。
树伟兄刚才谈到工具书的问题。其实,如果我们写论文的话,恐怕不见得每个学科都能引工具书为论据。但是,如果是我们读书,想了解某一个领域、某一个问题时,想得到一个准确度比较高的答案,我们就需要去查工具书,而且希望用很快的速度查出结果。这是我们很迫切的需要,尤其是我这学期备课时有体会,经常遇到自己不熟悉的问题,有时候限于客观条件,比如说时间紧张,不可能自己去深入调查研究,就需要去用工具书来提高效率。目前有很多辞书的检索系统,但有些分散。那么,我们要查一个问题、查一个字或者一个词,可能同时要用很多渠道。我们找自己的藏的电子书,又到某个APP去又搜一下,又去用国学大师、搜韵、汉典等等网站去搜一下,有时又要核对古籍,多方对比。这样花的时间也是比较多的,效率不高,要同时打开的网页窗口也不少。
这个时候,我们需求、希望有一个这方面资源整合的平台,从我们怎么来找书、找资源开始,一直到我们怎么能够最高效的来获取知识。比如,一个能联合搜索,又比较准确的搜索引擎。因为现在有很多问题,容易获得的内容往往是不精确的,甚至是错误的内容。比如说,我们去百度上一搜,乃至某些网站,它给出的句例、文本,还是问题比较多的,如果我们不注意,直接粘过来使用、取信,会出现各种各样的问题,包括版本的问题、释义的问题,等等。这个其实是很麻烦的,而且还是在一般的交流和了解中难以避免的。比如,我们专门去研究一个问题,我们可能不会被误导,但是如果说我们就大概浏览的话,能够误导我们的东西也是非常多的。所以这个话题是可以沿着树伟兄的思路接着来考虑或者讨论的。解决了搜索信息之后,我们还要提高效率,进一步甄别、筛选信息。
发表评论