古籍数字化文字只能人工输一页人工要花费6块多-米儿火

□苏报记者施晓平

你知道珍贵古籍是怎样数字化的吗？苏州图书馆副馆长汪建满、苏州嘉图信息技术有限公司董事长徐伟国，透露了从图片扫描到人工录入文字再到校对、生成数据库等的全过程。

软件没法用，文字只能人工输

古籍的数字化，离不开相关的软件系统。为此，苏州图书馆联合苏州嘉图信息技术有限公司，自主开发了古籍数字化软件系统。

不过，该软件系统是将数字素材加工成数据库的操作平台，古籍的页面原貌图片和文字，还需要一一扫描和输入。

为了保护古籍，书页图片需要用冷光源无边扫描仪，扫描速度很慢，扫描完了还要用软件加工修正，一天只能完成200多页，而现代文献一天可以扫描几千页。

文字的录入更难。古籍上的文字，往往因不按标准写法刻制而很难辨认，像己、已、巳，曰、日，人、入、八……一旦刻得不够规矩，OCR文字识别软件就会判断错误，导致输入电脑的字出错。而古籍中这样的字很多，此外还有大量异体字，所以即使是比较好的本子，录入文字的准确率也不过93%，一般只有70%左右，手抄本就更没法说了。而一旦准确率低于97%，使用这种录入法的意义就不大了。汪建满解释，这是因为校对会特别烦，还不如手工录入。

正因为这样，所以苏州图书馆在对古籍进行数字化的时候，是用两名输入员进行录入的，然后再用电脑软件进行自动比对，一旦出现不同，软件系统就会把不同的字自动翻红，这样就容易发现问题、及时更正了。

遭遇冷僻字，求助超大字符集

如果说，上面提到的做法只是烦一点的话，那么，碰到冷僻字就不只是烦的问题了，而是简直让人无从下手。

汪建满举了这样一个例子：葑门的葑又叫“鱄门”、“鱼孚门”，是因为“鱄(鱼孚)”跟随波涛进入而得名的，可在普通字库里，“鱼孚”字根本打不出来。

更难办的是，古籍上有些冷僻字甚至连收字4.8万多的《中华大字典》也查不到。

汪建满说，一开始他们碰到这种情况，就只好用带造字工具的windows软件自己造字，很麻烦。后来他们购买了方正超大字符集和台湾的细明体超大字符集软件，这两大系统收录的汉字多达7万多，这样以后碰到冷僻字就有办法了，“多亏这些超大字符集啊！”

三名熟练工忙一天，只能录入1万字

古籍文字进行人工录入后，还要进行一校和二校，“我们的目的只有一个，就是尽可能少出差错！”汪建满说，这是对读者负责，也是对古籍负责。

徐伟国说，从页面扫描、文字录入到校对、生成数据库等，花费工夫非常大。他们曾测算过，三名熟练工作人员忙一整天，也只能录入1万字。平均下来，一页古籍人工成本要6元多。如果算上房租费用、水电费和软件开发费用，那成本就更大了。徐伟国说，当年光是古籍数字化软件开发，就花了30多万元。

就因为特别费人工，所以苏州图书馆方面定的目标任务是每年完成5万页、约1千万字的古籍数字化。“实践下来，每年都会超额完成任务”，汪建满相信，随着时间的推移，一定会有更多的古籍让大家轻松查阅！