当前汉语编码方案应着重注意的几个问题

 

  一、所支持字库的大小

  国家标准总局于一九八○年发布的国家标准信息交换用汉字编码字符集,即常称的国标码字符集(GB),共有6763个汉字,包括常用汉字有四千多,次常用汉字约三千左右。现在常用的汉字输入法一般只支持这一字库量。汉字数量近十万,常用的汉字字典、词典收集的汉字一般在一万二千左右,字典、词典上大量的汉字特别是人名、地名用字没能包括在国标码之中,如"蹓跶"这两个字、啰嗦的"啰"字、瞭望的"瞭"字、朱镕基总理的"镕"字、澳门两岛屿之一的氹仔中的"氹"字,只支持国标码的输入法满足不了日常输入需要。

  一九九○年中国、日本、韩国共同制定的统一东亚表意文字字符集,即常称的国标扩展码字符集(GBK),共有20902个汉字,包括现代汉语通用字表和邮电通信字符符集的字符及其繁体、台湾地区的《通用汉字标准交换码》所含字符、一些香港用字及日文、朝鲜文用汉字。考虑近一半汉字有简繁体两种字体形式这一因素,扩展码实际拥有的汉字量为一万三千左右,常用字、词典收集的汉字差不多全部包含在其中。简体中文WIN 95及其以后的版本符合GBK标准,目前的各种输入法也应做到支持GBK标准。

  大量的汉字存在于古籍之中, 数量达九万之多, 如从事古文输入输出, GBK仍不能满足要求,所以用于特殊专业的输入法,还应扩大所能支持的字库规模。

  二、标点符号及图形符号的编码设计

  现代汉语所使用的标点符号近三十个,远比西文中的标点符号多。现代汉语中的图形符号也比较丰富,其中一些是汉语专用的,如‰、¥、℃等。目前的输入法在这些符号的输入方面考虑的不够,仅靠数字键、符号键配合 Shift键只能输入其中的少数符号。一些编辑软件如某些中文版的Word设置标点符号工具条进行弥补,但这一工作本应由输入法来完成。

  三、所支持的词汇量

  进行词语输入,是进行计算机键盘输入时,汉语相对于西方语言的一个极大优势。 这里所说的词语不同于一般意义上的词语, 指现代汉语中一切经常出现在一起的多个汉字的搭配 ,不包括单字词 ,包括多字词、词组、熟语及其他常用搭配如"你好"、"请问"等。词语的编码长度与单个汉字的长度一样,减少了平均每个字的击键次数,大大提高了输入速度。

  词汇量少难以提高输入速度,无限制地扩大词汇量,设置一个包罗万象的输入法词汇库也是不现实的。日常词汇及各种专业词汇总数量在百万以上。若以26个字母键进行编码,所能排列组合成最大的编码数量(我们称之为编码空间)只有456976个(26的4次方),若加上数字键,共用36个键来编码,编码空间也只有 1679616个。在编码空间一定的情况下,输入法的编码重码率随着输入法的编码个数(即字符数和词语数量之和)的增加而成几何级数的倍增,重码又是汉字输入,特别是盲打输入的大敌。我们须综合考虑,确定一个合适的词汇量。

  现代汉语词典(第三版)所收集的词条五万条左右,其中的大部分词条应收录进来;国家技术监督局是中国中文信息学会汉字编码委员会曾联合推出过一个总量为四万七千余词条的计算机汉字输入系统使用的通用词库,根据需要可划为词条数目不同的三个等级修用户选择。各词语的使用频率有高有低,保持一定的词汇量规模,尽量收集较常用的词语,同时配合一个用户自已设置定义的用户词库是明智的选择。  

  四、编码的重码率

  重码对于输入极为不利,输入时有了重码,须从屏幕上所列示的字、词中找出所需的字词,用数字键作相应的选择,大大延缓输入速度。电报码、区位码能完全作到无重码,但这类输入法中汉字的编码不是根据自身字形或者发音特征进行编码的,而是顺序排列编排的,不能做到"见字知码",须记忆各个汉字的编码,其难度太大,无法推广。

  根据汉字的字形、读音特征进行的编码在码长就三、四键的情况下,很难作到完全无重码,就是勉强做到了,必定会对编码利用许多规则来限制,且进行大量的特例处理,这也不利于学习,加大使用者的记忆量。合适的作法是将重码率控制在大家可以忍受的水平内。

  五、编码的学习难度

  掌握一种汉字输入法,总是需要一个学习过程,有的输入法学习一、两天就能初步掌握,有的需要一、两个星期才能输入文稿。有的输入法在一段时间没有使用之后使用者不易忘记,有的输入方法则容易忘记。初学者很自然地会拒绝接受那些难学难记的输入法。保证输入法易学易记,一方面要尽量减少记忆点,如编码规则、部件分布、声韵母分布、特例处理等,另一方面要提供便捷的提示学习功能,帮助初学者学习使用。

  以上各个方面统筹兼顾,不能有所偏废。实际进行编码设计时各个方面相互制衡。字词量大了,重码就大幅度上升。编码码元数(即编码用的字母、数学键的个数)、编码长度确定后,编码空间(即可组合出最大的编码数目)也就一定了。如用26个字母键,码长为4 键,最多只能有26的4 次方,456976个互不重复的编码,只能在这一空间内进行编排;电报码以10个数字键为码元,码长为 4,编码空间为10000。

  在按规则编码的情况下,因为所选取的汉字特征数目远超过码元数,多个特征信息共享一个键,如拼形输入法中多个部件在一个键上;拼音输入法中声韵共键,两、三个韵母共一个键。这样就造成编码空间中大多数编码用不到,一些编码被用到多次,就产生重码。

  要保持输入法的重码率在大家可以容忍的水平,编码空间应是字词数目的十几倍到几十倍。编码空间一定的情况下,当所需进行编码的字词量增加时,重码就会以几何级数倍增,因此要想保持一定的重码率,字词量上升了,则所需的编码空间就得成倍的上升。

  要保持较低的重码率,另一个途径是将所利用的汉字编码信息特征,尽可能均衡地分布于各个码元,使各码元的负担大致相等,也就是让每个码元在字词编码中使用次数大致相等。在这一方面拼形类输入法比拼音类输入法有更大自由发挥余地,使得拼形类输入法远比拼音类输入法丰富多彩,其数量大大高于拼音输入法。 汉字的读音特征就22个声母(包括零声母),35个韵母,汉字的字形特征就十分丰富,可以分解出六百多个汉字组字部件,这些部件大多可以处在汉字的各个位置,汉字还有好多种结构。各个汉字部件的能力差异很大,如部件"口"的组字能力最强、组字频度最高,在设计拼形类输入法时,需将多个部件放在一个键上,此时应对所有部件的组字频度进行统计,保持各个键(码元)上的部件组字频度之和大抵相当,组字能力强的部件与组字能力弱的部件进行搭配,避免产生某些键上的部件都是组字能力很强的部件,而另一些键的部件却是一些组字能力弱的部件的现象。 这种搭配应在保证部件按组归类、意义相同、外形相同的部件在一起或所在的键位相连的前提下进行,以尽量减轻使用者的记忆负担。另外这种均衡不能过于绝对,位置居中的键是手指头最容易准确触及的地方,从符合人体的生理特征方面考虑,这些键的负担应略高些。

  数以千计的汉字编码方案的出现,反应了大批仁人志士对解决古老的汉字与计算机冲突的决心,体现了这一领域百花齐放的活跃学术气氛,但层出不穷的输入法让人眼花缭乱,历史经验一再证明,一种新技术只有通过规范化和标准化,才有可能大范围地推广,产生出巨大的社会、经济效益。例如,五线谱记音体系统一了音乐记载工具,使得音乐构思得以精密表达;计量单位的标准化推动了工业的发展。 汉字编码同样需要进行规范,不成熟的输入法以"正统"的计算机汉字文化的约定俗成的法则,"强迫"人们接受许多不合理的东西,等其普及开了后,再来纠正就要付出很大的代价,就如同计算机2000年问题。计算机的汉字输入方式方法"群雄割据",随着计算机在全国范围内的普遍应用而悄悄地肢解着汉字,"书同文"的全国统一形式事实上受到威胁。 鉴于汉字编码,特别是拼形类编码的混乱情况,相关部门正在进行相应的规范工作,1997年底,国家语言文字工作委员会与新闻出版署联合召开了新闻发布会,同时发布了《信息处理用 GB13000.1字符集汉字部件规范》和《现代汉语通用字笔顺规范》,其他如基础部件部件序列规范、部件的读音规范等一系列规范正在研讨之中。在进行编码设计时,这些规范应予严格遵循。

返回