绿色拼形的解决方法

 

  设计一种汉字编码方案是一个系统工程,一方面要能支持汉字国标扩展码大字库,词汇相对丰富,并能输入现代汉语中常用的非汉字符号,另一方面要将重码率控制在较低水平之内。这两方面相互矛盾,相互制约,如何才能使两方面达到一个均衡的水平是一个重大课题。

  绿色拼形的一个重要设计思路是支持国标汉字扩展码 (GBK),词汇要丰富,保证四万的词汇量,还能输入现代汉语中的所使用的图形符号,这样总计有六万多编码;第二个思路是编码要简短,编码长度不能超过四键;第三个思路是得将重码率控制在较低水平。若按一般地设计思路,编码多,码长短,重码率则将是惊人的。在编码设计过程中,采取以下几项措施,最终将重码率控制在自认为较为满意的水平之内。

  一、增大编码空间

  编码量多达六万多,势必需要一个更大的编码空间,因而在设计时利用了包含字母键、数字键及四个符号键共40个键作为码元。其中","、"· "、"/"三个键用于对标点符号进行编码,用于字词编码的码元有37个。若码长为3 键,编码空间为 50653(37的 3次方)个,这样就有可能将国标汉字库6763个汉字(这是一般码长为4 键输入法所能支持的汉字量)的编码设置为3 键;码长为4 键时,编码空间就为 1874161(37的 4次方)个,相对于利用26个字母键,码长4键的456976(26的4次方)个空间来说扩大了 3倍。

  二、对字、词、符号按频度分级处理  

  在现代汉语中各个汉字的使用频率相差十分悬殊,"的"、"一"、"是"等字被频频用到,而很多汉字绝少用到,据统计,在 GBK的 20902个汉字中,最常用的二十来个字的使用频度能达到百分之二十,而频度最低的一万四千多个汉字的使用频度总计还不到千分之一。如果进行编码时对所有的汉字作等同处理,重码现象将十分严重,那些生僻字也没必要同样地分享的编码空间。

  因此绿色拼形将20903 个汉字(包括"○"字)分成三级,第一级是高频字,按汉字在现代汉语中的使用频度,选取了频度最高的37个汉字,包括"的"、"地"、"得"、"着"、"了"、"过"、"你"、"我"、"他"等等。这37个高频字的合计使用频度超过20%,其编码长度仅为一键,分布在字母键、数字键及";"键37个键上。从而保证在输入过程中20%的汉字仅按一键就行。 第二级是普通字,由国标汉字库中的6763个汉字剔除除高频字及非成字部件组成,共有6686个,码长为三键。并从普通字中再选取约一千二百个使用频率比较高的字作为常用字,常用字同时具有一个两码的简码,即取其编码的前两位。输入常用字时,输入三键编码也行,输入前两键即简码也行。高频字、普通字包括国标字库的全部,这些汉字是一般输入法所能支持的最大汉字量,在一般输入法中这些汉字编码长度多为四键,而在绿色拼形中码长不超过三键。 第三级是生僻字,是国标汉字库(GB)没有收集,而 GBK所独有的那部分汉字,也即一般输入法所输不出来的那部分汉字,共有14111个。

  所有生僻字的使用频度之和不超过千分之一,主要在人名、地名中出现。生僻字的码长为四键,前两键是取前两位部件所得,属于有理编码,第三键固定为生僻字专用键--"-"或" ="键,第四键随机取四排键(即数字、字母及";"、","、"·"、" /"共40个键)中的每一键,属于无理编码。生僻字使用频率很低,不用去记忆其编码,输入前三码后用"PgDn"及"PgUp"两键翻页查找。

  图形符号的使用频度同生僻字一样低,也作类似处理:将图形符号分组,每组以两个汉字命名(如序号、部件、俄文等等),这两个汉字的第一个部件构成符号编码的前两位,编码的第三位固定为符号专用键--"["或"]"键,第四键随机取四排键中的每一键。

  四万多的词汇的码长为四键,没有专用键。高频字码长一键,常用字码长两键, 普通字码长三键, 词汇、图形符号及生僻字的码长虽都是四键,但图形符号及生僻字各有自己的专用键。这样各类之间不会重码,只可能存在各类内部之间的重码,如词组与词组之间有重码,普通字与普通字之间有重码。另外高频字与37个键是一一对应的,不会有重码;常用字是按前两码精选的,也不在有重码;生僻字、图形符号的第四位编码是无理编码,只要所在组的生僻字、符号数量不超过80个,也不会有重码。设计编码时,通过对字、词、符号的分级处理,大大降低了重码率。

  三、精选汉字部件

  汉字组字部件(有的输入法称为字根)可以分解出六百多个,各个汉字部件的能力差异很大,如部件"口"的组字能力最强、组字频度最高,部件"巜"的组字能力就很弱。部件选取多了,使用者记忆负担过重,组字频度低的部件可以由几个笔画来代替,但部件选取太少,汉字的字形特征信息不能充分地分散开,导致重码率上升。 绿色拼形根据部件的组字频度,共选取了 198个组字频度高的部件,并严格遵循《信息处理用GB13000.1 字符集汉字部件规范》,即所有非成字部件及大部分成字部件取自该规范的基础部件表,其余成字部件由该规范的基础部件组合而成的。

  四、将汉字部件均衡地分布在37个键上

  绿色拼形以 198个部件作为两万多汉字的拼组元件,部件数大大高于码元(键位)数,因此就须将多个部件放置在同一个键上,部件的组字能力各异,同一键上的部件可以进行频度高低搭配,使得每一键上各部件的组字频度之和大抵相当,汉字的字形特征要素在键位上充分地分散开,以保证较低的重码率。 要保证部件的均衡分布,绿色拼形没有采取"音托"(部件位于部件名称第一个字声母键上,如部件"宀"根据宝盖儿中"宝"的声母,位于B键上)形式。记忆198个部件在37个键上的分布是一个不小的负担,因此进行部件分布时,遵循了部件按组归类,意义相同、外形相同的部件在一起或所在的键位相连的原则 ,这样记住了一个部件 ,就能记住一大串部件。同时设计了键位图,键位图程序采用了上浮技术,可以在屏幕上随时 显示部件、高频字在键位上的分布位置,便于初学者对照输入。

返回