报道
让古籍触手可及
2013年12月30日,习近平总书记在主持十八届中共中央政治局第十二次集体学习时提出,要系统梳理传统文化资源,让收藏在禁宫里的文物、陈列在广阔大地上的遗产、书写在古籍里的文字都活起来。古籍数字化正是让古籍“活起来”的重要方式,也是传承发展中华优秀传统文化的一项重要使命。为帮助广大读者更好了解古籍数字化的相关情况,本刊记者采访了国家图书馆常务副馆长、国家古籍保护中心副主任张志清。
“青蒿一握,以水二升渍,绞取汁,尽服之”,2015年诺贝尔生理学或医学奖获得者屠呦呦,从古籍中获得灵感,由此发现了青蒿素,挽救了全球数百万名疟疾患者的生命。中国气象学家竺可桢在海量古籍中寻幽入微,绘制出一条物候变迁的曲线——“竺可桢曲线”。通过这一曲线,人们能了解中华大地五千多年来的冷暖变化对中国社会变迁的影响:饥荒、干旱、水灾,甚至改朝换代。
古籍,是中国古代书籍的简称,主要指书写或印刷于1912年以前具有中国古典装帧形式的书籍。目前我国现存的古籍约有3000万册(件)、20多万种,这些古籍,蕴含着中华民族宝贵的文化基因和历史记忆,是中华文明传承发展的重要载体。
解决古籍“藏与用”的矛盾
明代藏书家叶盛云:“夫天地间物,以余观之,难聚而易散者,莫书若也。”“纸寿千年,绢寿八百”,古籍的长期保存是个世界性难题,除了人为破坏、水火之患,日常的虫噬鼠咬、酸化絮化在所难免。以久负盛名的明朝《永乐大典》为例,原本有11095册,目前留存的只有434册,不到原典的4%。从古籍留存现状看,宋版书已很难得,唐代前的古籍大多只能在考古挖掘中所见,传世文献屈指可数。
目前我国保存的一些古籍,有的已非常脆弱,可能稍一翻阅就会损毁,因此平时的保存,只能在恒温封闭的书库中。这种保存方式,使得古籍的使用非常严格,别说一般读者,即使专业的研究者也很难看到。
“要解决古籍‘藏与用’的矛盾,数字化是最快、最经济的办法。”张志清介绍。一部书只有化身千百,才能避免一部书盛世收集、衰世流散、乱世损灭的命运。
对石刻拓片进行古籍数字化拍摄
中国国家图书馆/供图
实现古籍的数字化主要分三步:一是成像,即采用非接触数字化方式对古籍进行拍照、扫描,以获得古籍全息数字图像。
二是文本化,即利用人工智能对古籍图像进行文字的识别、校对、标点等。目前,先进的文字识别技术,能让古籍的字符识别准确率达到96%以上,句读的准确率达到94%,命名实体的识别率,即对人名、地名、书名、时间、官职等信息的识别率达到98%。如果没有现代科学技术,完全依靠人力,古籍数字化全部完成可能需要上百年的时间。但有了先进技术,完成全部古籍数字化也许只要二三十年时间,如《百衲本二十四史》将近4000万字,利用人工智能,仅用3个多月就完成了识别、点校、上线发布。
三是人工复查核对。尽管经过人工智能处理的古籍文本准确率已经很高,但依然需要人工核校,特别是一些异体字、冷僻字,以及特殊格式的古籍,更是离不开人工核校。在这方面除依靠专业的古籍数字化队伍,邀请广大古籍爱好者参与核对也是重要的方式。
在中华书局的众包平台,集中了来自全国各地、各行各业的古籍研究者和爱好者,其中有大学生、图书编辑、律师、教师,也有公务员、金融界人士和自由职业者等。大家在线领取任务后就开始对计算机处理后的文本进行文字、标点的再核校。对广大古籍爱好者来说,这一工作既能校对古籍,也满足了他们对古籍阅读与研究的需求,一举多得。
目前中华书局的古籍整理众包平台已发布任务42976个,核校文字14.84亿字,极大地提高了古籍数字化的效率和准确率,如全书近2亿字的《中华大藏经续编》通过众包模式,在全球900多位业余审校者的参与下,仅用时两年就完成了两个校次的底本校对与审核工作。
“古籍整理众包模式不仅解决了大型古籍整理项目在人力方面的需求,更重要的是解决了地域限制和个体时间分散、随意的难题,使人力和时间都得到了充分的利用。”张志清说。
中华书局古联公司的籍合网
已经成为古籍爱好者一个交流学习的重要平台
古籍数字化,除了能最大限度地减少对古籍的伤害,更主要的是能大大提高古籍的使用价值。古籍上网后,不论是专业研究人员,还是普通读者都可不受地域时空限制地对古籍实现全天候的学习研究。一些古籍研究者说,过去他们为核准古籍中的一个字,可能就要跑一趟北京,到国家图书馆查阅文献,而现在足不出户即可实现,节省了大量时间精力。
古籍的数字化,大大提高了古籍研究的体系化、智能化水平。国家图书馆建设的“《永乐大典》高清影像数据库”,除了对《永乐大典》的原文进行数字化,还采用3D等多种技术,还原了《永乐大典》的原貌,读者可以360度地翻阅《永乐大典》,可以直观感受《永乐大典》的整体风貌、流散轨迹和分布状态。
再如北京大学人工智能专业开发的“宋元学案传承可视化系统”,数百个衣袂飘飘的儒生,在标注有“涑水”“濂溪”“玉山”等若干个古地名的地图上缓缓赶路,他们的行程,反映了他们的求学经历和所属学派。系统的可视化,把古籍中复杂琐碎的知识联系清晰地展现了出来。
古籍的数字化也是推动古籍回流的重要办法。2015年4月28日,国家图书馆接受法国国家图书馆赠送的法国藏《圆明园四十景图》数字版本,这是国家图书馆实施“海外中华古籍调查暨数字化合作项目”以来取得的首个重要成果。《圆明园四十景图》1860年被英法联军掠走,原件存于法国国家图书馆。
据统计,目前海外100余家收藏机构藏有中华古籍300余万册,不仅数量巨大,而且很多是孤本,具有极高的文献价值与文物价值。近年来,国家图书馆、中华书局、山东大学等通过多种方式调查散落在海外的中华典籍,并尝试与海外存藏单位合作,以数字化的形式使中华典籍回归祖国。
目前古籍数字化基本情况
我国古籍数字化工作开始于20世纪80年代初,当时全国古籍整理出版规划领导小组拨出专款,支持有关单位使用照相等技术探索古籍的数字化。之后,随着PC和互联网的普及,古籍小组多次组织召开全国性会议,不断推进古籍数字化的步伐。2012年,《2011—2020年国家古籍整理出版规划》公布,确定20个古籍数字化重点项目。
2019年,为解决古籍数字化力量条块分割、缺乏统筹、标准不一、水平不高、人才滞后等问题,古籍小组专设古籍数字化协调组。2020—2021年,协调组组织全国高校、研究机构、图书馆、出版社、企业等,聚焦古籍数字化发展中遇到的重要和关键问题,结合媒体融合传播、前沿技术、政策法规、数据应用等,开展古籍数字化研究,取得了一批研究成果。
2022年4月,中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》,明确提出“推进古籍数字化”工作,同年10月,《2021—2035年国家古籍工作规划》印发,对古籍数字化工作进行了详细规划,其中包括建设国家古籍数字化资源总平台、“中国古籍总目”网络版资源库等。
根据2022年5月中共中央办公厅、国务院办公厅印发的《关于推进实施国家文化数字化战略的意见》,到2035年,中华文化要实现全景呈现,数字化成果实现全民共享。
在党和国家的大力推动下,近年来我国古籍数字化取得飞跃式发展。据不完全统计,截至2023年12月,国内已累计在线发布古籍数字资源13万部(件),其中国家图书馆“中华古籍资源库”累计发布10.3万部(件),2640万页,是全国古籍资源类型和品种最多、体量最大的综合性平台,可以免登录在线阅览。中华书局推出的“中华经典古籍库”也是古籍数字化的优秀范例,已累计发布6000多种、15亿字的点校本古籍。对许多文史研究者来说,这些古籍资源是须臾不可分离的助手,极大地缓解了他们阅览古籍的难题。
国家图书馆网页版
发表评论