李斌1,2 1.南京师范大学语言信息科技研究中心南京 210097 2.南京大学计算机软件新技术国家重点实验室 江苏南京 210093 E-mail: lib@nlp.nju.edu 要:先秦汉语在汉语发展史上具有非常重要的作用。由于缺乏深度标注的语料库,先秦汉语的词汇概貌一直难以展现。本文基于 25 种先秦传世文献人工分词和词性标注的语料库,统计得到了先秦汉语字、词频率和 分布概貌,计算了先秦汉字熵,详细讨论了学界关心的多音节词数量和词语兼类情况。 关键词:中文信息处理,先秦汉语,词汇统计,词语兼类 Corpus Based Lexical Statistics Pre-QinChinese Li Bin 1,2 Feng Min-xuan ChenXiao-he ResearchCenter Informatics,Nanjing Normal University, Nanjing 210097 StateKey Laboratory NovelSoftware Technology NanjingUniversity, Nanjing 210093 E-mail: lib@nlp.nju.edu Abstract: Pre-QinChinese plays keyrole Chinese.However, taggedcorpus, Pre-QinChinese vocabulary paperintroduces 25Pre-Qin classical texts, which underword segmentation part-of-speechtagging manually. wordfrequencies showedbased characterentropy, multiplepart-of-speech words alsostatistically analyzed. Keywords: Chinese information processing, Pre-Qin Chinese, lexical statistics, multiple part-of-speech word. 前言在汉语的发展史上,先秦汉语具有举足轻重的作用,字词的音形义的考证都需要从先秦汉语 找寻最早的用例。
先秦汉语的词汇研究已经有了很多专著和论文加以论述,如《吕氏春秋》、《韩 非子》等专书的词汇研究(张双棣1989;车淑娅2008)。但是这些研究大都是针对专书或者领域 词汇的,注重字词在音、形、义方面的考证和整理,而对先秦词汇的概貌研究极为少见(叶正渤 2007)。台湾中央研究院近年来开发了以十三经为主体的先秦汉语语料库和先秦金文简牍词汇数 ,对重要的传世文献进行了词语切分和词性标注,提供了在线检索程序和词典。该语料本可以作为先秦汉语词汇全貌的研究基础,可惜该数据库为检索系统,不公开全文数据库,难以为广 大研究者直接使用。 因此,通过近四年的努力,我们甄选了 25 部先秦传世文献,进行全面的分词和词性标校工 作,形成了先秦汉语精加工语料库(陈小荷2008;石民2010)。借助计算机和语料库技术,本文 针对以下两个问题进行了统计分析工作:(1)先秦语料的基本字汇和汉字熵;(2)先秦语料的基 本词汇和词类分布情况,词语兼类的比例情况。通过这两个方面的统计,希望对以先秦文献为代 表的先秦汉语有一个概貌性的描写。 语料来源和说明本文的数据来源是南京师范大学文学院语言科技实验中心按照自行设计的分词和标注规范 (参见表2),半自动地手工标校的25 部先秦文献语料库,按篇幅大小依次为:左传、管子、韩 非子、吕氏春秋、礼记、墨子、荀子、国语、仪礼、庄子、周礼、公羊传、晏子春秋、谷梁传、 孟子、诗经、尚书、楚辞、周易、商君书、论语、老子、孙子兵法、吴子、孝经,共计133 本文承国家社科基金(10CYY021、10&ZD117)、江苏省哲社重点研究基地课题(2010JDXM023)、南京大学计算机软件新技术国家重点实验室开放课题(KFKT2011B03)、中国博士后基金(2012M510178)、江苏省博士后基金(1101065C)、江苏高校优势 学科建设工程的资助。
字。为了统计字频和词频的各种信息,我们把每部文献的字频和词频汇总形成2张数据表:字频 信息表和词频信息表。通过这两张表,可以方便地查询每个字词在不同文献中的分布情况、每部 文献的词型数和词例数。 本文的统计主要区分“型”和“例”。“型(type)”可以是字型、词型等,表示一个词语的形 式;“例(token)”则是某一个型在语料中的用例。如汉字型“之”在《左传》中出现了7260 利用数据库查询技术,可以进一步得到字词的概率信息、每本书的最高频或特有字词以及单音节、多音节词的分布情况。本文的统计数据大都基于这两张表展开。为了和现代汉语做比较,我们将 北京大学计算语言学研究所公开的1998 月人民日报语料(后简称199801)作为对比语料。本文的研究设想是基于先秦标注语料库,尝试给出先秦汉语先秦文献的基本字汇和词汇。这 在理论上来说,存在一定的困难。“基本词汇”是由孙伏园于1947 年的《基本词汇研究述要》中 提出的。潘允中(1959)指出,基本词汇是语言中最本质的东西,它具有三个特征:历时稳固性、 全民性、构词能力强。周荐(1987)认为必须符合稳固性、全民性和能产性三条标准的才算基本 词汇的成员。
这些定性标准基本上得到了学界的认同,但是操作起来却相当困难。首先,古代汉 语的语料库大都没有经过分词和词性标注,无法进行词频统计,只能在纯文本上进行字频统计或 用传统的卡片笔记。其次,没有给出完整的定量的分析手段。历时稳固性可以根据《汉语大词典》 等大型历时词典来判断,但是这些词典给出的是某字词各个义项最早的用例,并不能体现这些字 词在每个时代的全民性和构词能力。而学界共知,古汉语以单音节词为主,在中古以后的古白话 或佛经等文本中才谈得上构词能力。全民性则更是现代的网络时代才有可能定量获取的。在古代, 能利用的基本上只有文献材料,也只有在文本材料上才有字和词之分,在口语中则为语素和词。 因此,我们并不讨论“先秦时代”的基本词汇,研究只限于先秦传世文献的基本字汇和词汇。 那么基本字汇和词汇该如何界定?考虑到先秦文献的历史特殊性,我们在“稳固性、全民性、 构词能力强”基础上抽象出两点定量依据,即“频率高、分布广”。频率高,是指一个字词在文 献中出现的频率高,我们将这些字词称为“高频字词”。使用次数多,则很可能是基本字词。但 是,很多词只在某部文献中出现,一两部文献中的高频词也未必在其他文献中出现。
所以,还必 须考虑一个字词在不同文献中的分布情况。分布文献数量广的字词,我们称为“通用字词”。如 果一个词,既出现在所有的先秦文献中,频率又很高,那么基本可以认定为基本词汇。不过,这 样的界定并非完美,有些文献字数过少、语域窄,一味追求广度,也可能会有缺漏。我们将兼顾 这两个方面,尽可能地提供先秦文献的基本字汇和词汇概貌。 先秦文献的汉字统计在了解词汇概貌之前,我们先给出先秦文献语料库的用字情况。25 部文献共有1334780 个字 例,7049 个字型。篇幅最大的是《左传》,共有179814 个字例,3312 个字型。 3.1 高频汉字和通用汉字 先秦文献中的高频汉字和通用汉字的情况,要依靠频率信息来统计。我们从频度和广度两个 角度来进行观察。首先,统计出25 部文献中频率最高的汉字,然后统计分布度最广即在25 献中均出现的汉字。下面是25部文献频率最高的前100 个汉字: 不考虑繁简体问题,这些汉字仍然是现代汉语的常用字。几乎每部文献的最高频汉字均为“之”,少数例外体现出文献特色。“之”也是25 部文献整体上频率最高的汉字,和现代汉语语料中最高 频的助词“的”一样。可见助词在先秦汉语和现代汉语中的重要性是一脉相承的。
这100 个汉字 存在两个非常有趣的现象: (1)在最高频的前100 个汉字中,有25 个并没有出现在全部25 部文献中。这个现象令人 非常吃惊。我们分析了一下这些词语,并没有我们想象得那么奇妙,大多数词都是易于解释的, 比如“于”字排名第 23 位,在篇幅较小的《商君书》、《孙子兵法》和《吴子》中没有出现,比 较容易理解。但是,《论语》中居然没有出现“此”这个非常常用的汉字,不得不让人有些费解。 我们检索了多个电子版和大型数据库,《论语》确无此字,但是否真的没有这个字,或者为什么没有这个字,还得靠文献学家的考证。我们想强调的是,在语言学的研究中有句俗语“说有易, 说无难”,说有和说无,都需要学者多年的积累和扎实的卡片功夫。而基于标注语料库的统计, 却可以帮助我们快速地去发现这困难的“无”,更为方便地去考证“无”。 (2)通用字一般是高频字,但频度未必那么高,且在每部书中的分布也未必均衡。对于最 高频的“之”、“不”等字,在每部书中也基本是最高频的。但是对于通用词的排名较靠后的词语 并不尽然,例如“要”这个字排在频率表的700 位,频次为296。在《吕氏春秋》和《荀子》中 就分别出现了48 和38 次,而在《老子》、《孙子兵法》中仅出现1 次。
这种不均衡性也比较容易 理解,每部书的领域、年代也各有特点,用字上会有一定的差异。《楚辞》的语气词“兮”频率 最高,体现出地域性诗歌特点;《公羊传》、《谷梁传》的判断助词“也”频率最高,体现出“传” 这种文体的特色;《论语》的“子”频率最高,更是“子曰”量大和孔子诸多门生的表现。 我们把25 部文献共用的汉字统计出来,共有的汉字型总计132 个,按频次由高到低排列如 “之”不仅频率最高,通用度也高。“||”之前的字表示属于频率最高的100个汉字,共计75 个。而“||”后面的57 个汉字在频率上排名更为靠后,最后一个“要”字,仅排在频率表的第700 位。这132 字都为常用的单字词,各大词类均有分布。由于《老子》、《孙子兵法》、《吴子》、《孝 经》的篇幅都不足一万汉字,使得 25 部文献的通用汉字数量过少。但是反过来说,篇幅小的四
发表评论