3.汉字字频统计方法的改进-米儿火

导语，不少文章都有引用这样一个问题：

周有光在《现代汉字学发凡》一文中曾用具体实例区别“字次”、“字种”和“字形”三个术语，他指出：“‘从群众中来到羣衆中去，是一条群众路线的原理’。这个句子里有几个字？”

虽然引用文章使用的答案也有错误---像字种、字形的统计时文里的【中】字被重复计算。

但其实国内已有不少研究，以下是部分文章摘录，或有助于理解相关的概念：

1.论汉字数量的统计原则

辞书研究，2001(04)

李运富

字数统计有两个原则,一是笔画形体原则,二是记词功能原则。

处理的两个原则:

一、字形单位原则。

二、构造功能原则。如“径”与“迳”,或从彳，或从辶，构造功能不同(体现为构件不同) ，属于两个字位，但都是语言中表小路义的“jìng”这个词项的固定符号,所以又属同一字符。

根据字形的构造功能归纳成不同的字形单位，对单位的正体作出统计，这样才能得出汉字的实际字数。相对于仅据笔画形体的统计，我们应该把同功能异写字(含错讹字) 的字数扣除，并加上同形异构字的字数；相对于仅据记词功能的统计，我们应该加上同符异构字的数量，并将同音借用字的数量减去。如果对字际关系进行全面整理，再按这样的原则进行统计，其结果汉字的数量将大大减少，估计在3万字左右，绝不可能有8万以上，无论就楷书而言还是包括所有的古文字。2.研制《规范汉字表》的设想

语言文字应用，2002(09)

张书岩

五《规范汉字表》的字量问题

总的看来，在字量问题上有两种倾向性意见。一种意见着眼于日常应用，认为不必收得太多，规范主要是针对实际的应用，限制在8000—15000字的范围内即可。那些罕见的字没有必要去规范。另一种意见认为应该覆盖已有的大型计算机字库。但持这种意见的人也并非认为多多益善，他们大都也认为应剔除无音义的字和确认是错误的字，同时作为国内使用的字表，要删去大部分日本、韩国、新加坡、越南等国所造的“汉字”。

课题组初步考虑，《字表》可分为四级（名称待商榷）：

一级字约3500字，略相当于原《现代汉语常用字表》。

二级字约4500字，略相当于原《现代汉语通用字表》中除常用字以外的通用字。

三级字约4000字，为除通用字以外的专业用字。包括地名、姓氏、人名、科技等专用字。

四级字约18000字，罕用的古字、方言字等。

以上四级共计30000字左右，若加上对应的繁体、异体字，总量约在45000—50000之间。3.汉字字频统计方法的改进

北京师范大学学报（社会科学版），2011(06)

李国英、周晓文

沙宗元在《文字学术语规范研究》一书中根据周有光的研究设立了“字形数”和“字种”两个术语，并分别给出了定义，他给“字形数”下的定义是：“根据汉字字形而不考虑其繁简、正异等字际关系进行统计所得出的汉字数量。”给“字种”下的定义是：“一个汉字即使有多个繁简体、异体字，也只作为一个来计算的汉字统计单位。

加强字频统计的理论研究，完善统计原则，改进统计方法，提高字频统计的客观性和科学性。

首先，要实现字频统计的客观性，必须建设满足文字学研究需要的字料库。

其次，汉字字频统计必须明确界定统计单位，划分不同层级的汉字统计单位，根据不同需要对汉字的不同层级的统计单位进行分类分层的字频统计。

王宁先生在为《汉字构形史丛书》写的总序中对此作了理论总结，她说：“对文本中的汉字加以整理，也就是必须对写在文本上实际使用的汉字进行三种性质不同的归纳：

（１）字样的归纳。这是将重复出现的汉字字样归纳到一起并进行统计的工作，是将一切文本形式的汉字改变为字库形式第一步要做的工作。

（２）字组的归纳，也就是对结构、功能相同书写略有变化的异写字的归纳。这些字属于同字异写，或称同构异写的关系。

（３）字种的归纳，也就是对功能相同结构不同的异构字的归纳。这些字或因构件的选择不同，或因构件的增减不同而异形，因而有着不同的构意，但记词的功能是相同的。它们的关系属于同职异字，或称同词异字。4.如何界定汉字的理论单位

京都外国语大学《研究論叢》, 2013(07)

朱一星

我们来判断下列汉字：

（5）国國际際图圖书書馆館

以不成单位(etic)的观点看，这些是相互不同的“十个”字，而以成单位(emic)的观点来看，我们就能判断出它们是两组繁简对应的“五个”汉字单位。

七．“国际汉字单位”

理想的汉字理论单位，应具有以下几个基本特征：

特征一：原子性。讨论汉字的性质，描述汉字之间的理论关系，都是以方块汉字作为基本要素的。在这里，汉字以下就不具有对于整字而言的语言符号功能。无论从字义侧面来说还是从字音侧面来说，汉字的部件都无法承担汉字的功能。汉字就是“最小的”，“不可分割”的符号。

特征二：抽象性。相当一部分汉字单位因多字形而不具有绝对形值。因为书写符号在使用时会造成变异，变异的原因本来都是随机的、偶然的。然而书写符号的非挥发性使其保留和固化。这些历史上的多种因素就形成大量的异体字、俗体字、通假字。这些字形群共同构成一个符号价值，共同存在于汉字使用者的头脑之中，代表汉字的理论值。汉字的理论值（单位）犹如语言符号的“语言（langue）”，而每次汉字的使用（理论值的兑现）犹如“言语（parole）”。

特征三：共时性。作为符号系统，汉字单位必然是个共时的概念，历史上不断变化着的汉字是不应该在同一个层面上进行描述的。共时层面的同一性，保证了地区规范字体之间的对应，保证其归属于同一个汉字单位。

特征四：泛语言性。汉字作为汉字圈共同的书面交流工具以及记录手段，历史上促进了地区间的文化交流和社会的共同进步。今后这一地区将仍然在户籍人名地政方面具有互通的要求，汉字单位的“泛语言性”将进一步显现出来。人们将会理解：汉字系统的整理优化，不一定是字体上的一致，而是“汉字单位”的一致。5.再论中文汉字字符集

语言研究，2020(01)

尉迟治平

七、单码和重码汉字

至今PUA 中还有不少GBK 汉字以及香港增补字符集（Hong Kong Supplementary Character Set，HKSCS）汉字，中文汉字字符集国家标准必须追踪CJK 的变化，一旦这些PUA 汉字进入正式区段，就应该及时废弃临时码，使用正式码。

九、余论

音同义同而形不同的字有两类，一类是异体字，一类是异字体字，汉语言文字学重视异体字的研究，因为它们是不同的字，不关注异字体字，因为它们是同一个字，但对于汉字信息处理这两类字必须加以区别，在数码汉字形、音、义、码四要素中，异体字形、码俱不同，异字体字形异、码相同，形异是通过使用不同的字库实现的，在计算机屏幕上显示的是不同的字形，而计算机通过码点处理时完全就是一个字。6.关于数字化时代的汉字应用问题

语言文字应用，2016 (01)

王翠叶

二汉字应用的情况

( 二) 辞书编纂收字的字量

《新华字典》第11 版收9400 余字，《现代汉语词典》第6 版收9159 字。大型语文辞书则是几万字不等，其收字不仅有现代汉字，还有古代汉语用字。如《辞海》2000 年版收13674 字，《辞源》2010 年版收12922 字，《汉语大字典》2010 年版收60370字，《中华字海》收85568 字，《康熙字典》收47035 字。

三汉字应用的问题及其原因

(一) 汉字应用的问题 1. 应用不规范

公安部二代证专用字库系统中的人名地名用字，有繁体字“鑑”(注:应该指⿰钅监，规范简体字是【鉴】)、自造字“盁”（注：同盈）、旧字形字“稅”。

作者另一篇论文

“简论《通用规范汉字表》制定的特点及问题的解决”

陕西师范大学学报( 哲学社会科学版)，2020(03)

《字表》在各领域实施存在的问题，主要有5 方面的原因:

一是因使用者不熟悉《字表》而没有执行，这只限于少量汉字使用者，依据没修订的旧辞书查阅使用汉字。

二是因条件不具备而没有执行《字表》，比如银行、交通、医疗等领域的信息系统因涉及安全和成本问题没有更新字库，致使有些字特别是地名、姓氏人名用字无法在计算机里处理，给使用者造成很多不便。

三是因理解不准而错误执行《字表》，比如《字表》收录“锺”用于姓氏人名用字，有人误以为姓氏人名用字为“钟”的必须都改为“锺”，徒生麻烦。

四是执行《字表》有困难，有的计算机软件系统、字库或输入法没有更新，致使一些字无法处理。如科技术语“二噁英”的“噁”字应使用其简化字形，有的排版印刷系统没有更新，只有繁体字形，需要编辑手写和排版单独造简化字形。

五是表外字的使用无所依据，因表外字没有规范整理，如何采用历史通用字形，使用者难以把握，容易出现自造新简化字的问题。

提出了措施包括：

2．加强实施指导。

三是新命名和更名用字的使用问题。

...信息产业领域实施《字表》虽允许有过渡期，但也不能让使用者无限期等待下去，至少要给出系统更新的时间表。

...《字表》发布5 年后，表内字是否都能畅通无阻呢? 显然在少数已更新的信息系统里都可以处理和使用，但在多数没有更新的信息系统里有些字则不能处理和使用。比如，姓氏用字“”是通过征求社会意见收进《字表》的，也有编码，但在有些计算机系统里是打不出来的。

5．为《字表》修订做准备。《字表》说明第10 条“本表可根据语言生活的发展变化和实际需要适时进行必要补充和调整”，教育部等12 部门关于贯彻实施《字表》的通知第6 条指出，姓氏和地名用字中如需补充进《字表》的，由各地语委、民语委负责收集这些字的字形、读音、来源、用途等详细属性信息，定期报至国家语委，以便《字表》修订时适当补入补充和调整。要做好这项工作，应设立专门研究机构，有常态化工作机制，采取有效方式跟踪了解《字表》使用情况，收集研究需要补充的姓氏和地名用字。这是确保《字表》有效实施、适时修订的长久之计。7.辞书编纂系统的汉字处理: 挑战与解决方案辞书研究，2020(01)

张永伟(三) 国内辞书检索系统对测试汉字的处理

...但这5 个测试汉字均无法录入查询，查询结果也无法复制到系统之外使用。经过分析，海笛对5 个测试汉字分别自定义编码，同一汉字在不同辞书中的编码也不相同。例如“”在3 款辞书中的编码分别是“ED79、E1D1、F52D”，“”在3 款辞书中的编码分别是“F346、E026、F4E2”。相同汉字在不同辞书中使用不同编码，导致这些汉字在不同辞书之间也无法直接查询参考。

《新华字典》《现代汉语词典》的收字和查字，2022/8/17

1．《新华字典》《现代汉语词典》的收字数量

据中国社会科学院语言研究所张永伟博士统计，《新华字典》第11版收规范汉字9460个、《现代汉语词典》第7版收规范汉字11166个。统计《新华字典》第12版规范字头在11版的基础上有增删，总的数量比11版增加20个左右。这些数字不包括规范字头后圆括号内所附列的繁体字和异体字，如果加上规范字头后的附列字，两典收录的单字都在1.3万多。 8.现代汉字学发凡

语文现代化第二辑，1980(05)

周有光

重要观点包括：

1．汉字学分为三部分：历史汉字学，现代汉字学，3外族汉字学。

2．现代汉字学研究现代汉字的特性和问题，目的是为今天和明天的应用服务，也就是为四个现代化服务，减少汉字在现代生活中的不方便。

3．现代汉字学是个新名称、新事物。它播种于清末，萌芽于"五四"，含苍于解放，嫩黄新绿渐见于今日。

4．现代汉字学的内容主要有：字量的研究、字序的研究、字形的研究、字音的研究、字义的研究和汉字教学法的研究等。

5．现代汉字学研究的问题和研究方法跟历史汉字学很不相同。它是以语言学为基础而结合信息论、统计学、心理学的边缘科学。这决不是抛弃或背叛历史汉字学。在汉字学的领域里应当厚今而不薄古、厚古而不薄今。

在“二、字序的研究、（二）汉字编码的研究”有以下提法：

“汉字编码”是把汉字变成符号序列的设计，主要用于电子计算机的输入终端。编码经过键盘输入以后，在计算机内转换成二进位码，找到对应的数字化的字模，输出整个汉字。

查字法容许一码（一组）多字，汉字编码要求一码一字。编码设计以第一层规则为评比的标准，对一本《新华字典》重码不宜超过3%，否则难于得到候选资格。

“四码”电报用四个数字代表一个汉字，没有重码，符合一码一字要求。但是"四码"是流水序列，跟字形或字音都无关系，叫做“无理编码”。四角号码也是四个数字代表一个汉字，什么数字代表什么角形有一定规则，叫做“有理编码”。但是，四角号码一码多字，不合汉字编码要求。

汉字编码，设计众多。这里谈两种例子：

1、音形码。又称音形罗马字母编码法。用两个字母代表声母和韵母，用两个字母代表部首和声旁，其中一个字母兼表声调，四个字母代表一个汉字。受过特殊训练的人见码可以读出字音。音形码的关键在找寻区分字形的特征。每字都用同数字母，叫做“等长码”。字母多少不等，叫做“长短码”。音形码要求输入者能读字音。如果不能读准字音就难于应用。限用26个字母，便于在小键盘上应用，便于跟国际情报网络联系，是一大优点。

2、拼字码。又称字形拆拼编码法。一种方法，把全部汉字拆成五六百个部件，分横列纵列等多种组合代号，又有部件代号。另一种方法，把汉字部件再拆成一二百个元件（“字素”)，每个“字素”等于一个“一百进位”或“二百进位”的数码。拼合“字素”实际是编列数码。由“字素”编成长短码可以不问组合方式，做到一码一字代表任何数量的汉字。拼字法要特制键盘（键盘），比26个字母键盘大而复杂，但是比不用编码的大键盘轻巧。优点是直观性比字母码好，可以不问字音，只顾字形。

在电子计算机的应用日益广大的今天，汉字编码研究已经成为一个热门。有人把汉字编码跟拼音文字混为一谈，那是错误的。汉字编码不可能只有一种。不同的汉字编码有不同的应用范围。在没有"字形内存"的小型电子计算机上，可以利用汉语拼音直接输入输出，也可以夹进少数编码，代表姓名中的同音异形字，不作“字形”输出。9.出版用汉字编码字符集

附一则2002年的相关报道，“《出版用汉字编码字符集》专家鉴定会在京召开”，《中国传媒科技》 2002(03) P29

新闻出版总署于2月22日主持召开了《出版用汉字编码字符集》专家鉴定会。鉴定委员会由国家语委、中国社会科学院、教育部、新闻出版等部门的语言文字、辞书学、中文信息处理等专家组成。目前,大多数的中文平台系统的电子出版系统能够处理GB13000.1字符集(即CJK_0集)的20902个汉字(其中包含GB2312-80字符集的6763个汉字),部分系统能够处理GB18030-2000字符集的2.7484万个汉字,但与新闻出版对用字量的需求还有相当大的差距,常常需要用户制作大量的补字字库,也无法满足日益发展的网上交流、电子邮件、电子出版、数字图书馆等方面的需求。制订一个能够满足新闻出版信息交换用的数字化图书馆等方面的需求。制订一个能够满足新闻出版信息交换用的、具有行业标准的汉字字符集，是新闻出版业中文信息数码化的关键所在。

根据新闻出版总署的要求、课题组以最新的国际标准Super CJK汉字字符集（共有70195个汉字）作为汉字数据统计和分析的基础，将确定的采集范围内的10多万汉字数据输人计算机建立数据库，在北京中易电子公司开发的《计算机全汉字信息处理系统集成》的中文平台上，对建国以来具有实用性代表性的大型出版物进行汉字使用情况的统计、分析、对比处理、总结出建国以来我国新闻出版业共计使用了34363个汉字、提交了一部反映古今汉语中具有实际应用价值的汉字集，形成了一个完整实用的《出版用汉字编码字符集》的基本集，从而为贯彻《国家通用语言文字法》、为Super CJK字符集的制订提供了科学依据。

鉴定委员会一致认为，本课题进行了我国新闻出版业建国以来实际使用汉字的基础统计和分析工作，具有重大长远的意义，为日后制订新闻出版行业标准用字打下了坚实的基础。(孙文)

其中提到的数字34363字，虽然可能是纯粹Unicode编码字数---异体不去重，但大约与前文提到的3万多字或台湾省教育部的近3万正字数量，比较接近。

为您推荐

3.汉字字频统计方法的改进