================================================================
【索易电子刊物】  http://www.soim.com/
================================================================
|||| 信息时代 ||||
……………………………………………………………………………………
话题176.汉语计算机输入
共45篇文章
本话题主持人:川昊(http://lspx.zb169.net/zeld.htm)
……………………………………………………………………………………
1.中文与计算机
 信息产业是当今世界上最强劲的产业,正以燎原之势迅猛发展。
 虽然近年来美国经济的 5个重要行业——机床、农用设备、钢铁、飞
机、石油天然气勘探以15%至40%的幅度下挫,但信息产业给美国经济注
入了强劲的动力,使之连续快速发展了近十年的时间,解决了几十年的财
政赤字问题;网络科技股快速成长,将股市一再推向高峰,美国成功地做
到了以股市的繁荣带动经济发展。

 美国总统经济顾问委员会的报告说,从1991年到1997年的经济增长总
额中有将近 2/3是与计算机有关。1998年因特网为美国带来了大约3010亿
美元的收入,接近于汽车行业的收入。据估计到2002年全球电子商务的营
业额将达到一万亿美元。

 我国也应该将信息产业作为带动经济发展的龙头行业。互联网出现初
期,我们被告知:在信息社会,互联网将整个世界联成一个完整的整体,
各个国家无论先进落后、无论贫困富有,在发展经济上将处于同一起跑线
上。实际上,目前我们已被远远地抛在后面:上网人数占总人口的比例刚
过千分之一,而美国有一半的人上过网;我国的电子商务还是一项空白。

 一方面是由于技术、基础设施上的差距,另一方面是因为我们在使用
计算机时存在巨大的语言障碍。尼葛洛·庞帝也认为:日本、韩国及台湾
地区虽有发达的信息产品制造业,但因为文化很不数字化,互联网世界对
东方的语言及其文化社会不那么友好,因而网络在亚洲的发展受到极大的
限制。

 本世纪初,有人面对英文打字机惊叹,汉语落后英文一百年!一百年
过去了,我们还再落后,下个世纪我们再不能落后了!

 弥补技术、基础设施方面的差距已初现曙光,国产品牌的计算机已夺
回国内的大部分市场;各电厂家加紧研制机顶盒(海尔已率先推出产品来
了),相信几年内机顶盒将如同 VCD一样风靡全国,相当多的家庭将用它
来进行网上浏览、收发电子邮件。搜狐预测:到2003年,中国的网民将达
三千万。

 跨越语言障碍将存在相当大的难度。在我国广泛地普及计算机、互联
网,用户将数以亿计,不可能让他们都掌握相当基础的英语,而后驾轻就
熟地使用计算机,进行网上冲浪,也就是说这一障碍绕不过去!

 我们曾经准备对汉字进行彻底的改革,经过若干次大幅度的汉字简化
后,改用拼音文字,这一道路也被证明是行不通的。

 面对信息世界的强大冲击,面对英语的强大文化侵略攻势,汉文化应
吸收、改造信息技术这一优秀的外来文化,就如同当初对传入的佛教进行
的吸纳、改造一样,让它彻底适应汉文化的环境,成为汉文化的一部分。

 在这一方面我们已作了大量的努力,特别是在计算机处理汉字信息方
面,各种汉字计算机输入形式、各种汉字输入法的出现,让我们看到了希
望:古老的汉字完全可以进入计算机,可以很好地与计算机结合起来,在
计算机文字信息处理方面,汉语有极大的优势:语言精炼、表意丰富、词
汇丰富、进行编码输入速度将大大快于西文。

 但目前在计算机汉字输入方面还有大量的问题尚须解决,汉字输入编
码设计处在混乱无序的状态……

发件人:川昊
……………………………………………………………………………………
2.汉字与英文
 在本世纪初,记不得是梁实秋还是谁,第一次接触到英文打字机时,
面对英文通过这一简单的机械就能打印出整洁规范的版面,且其速度大大
快于手写这一事实,悲叹在这一方面汉语落后英文一百年。

 英文仅仅只靠二十六个字母加上一些少量符号就能完全表达,因为其
简约性、规范性,此时英文的巨大优越性不仅表现在打字机简单的打印方
面,在制版印刷、信号传输、词语检索等方面英语存在着天然的优越性。

 对照看一下汉语:利用简单的装置打印汉字是不可能的;印刷厂制版
时,则需要利用几千个键的汉字大键盘,每输入一个汉字都需要从这几千
个键中去查找对应的一个键,其速度可想而知,就是再熟练的工人也难以
应付大量的制版工作;正因为汉字变成铅字如此之难,谁的文章变成了铅
字,则是足以令人自豪的事情。

 为了能以少量的符号传输电报,我们只好为每一个汉字设计了一个四
位数的代码,发文方须将每个汉字翻译成数字代码而后传送,收文方接收
到代码后再翻译成汉字,速度慢,易出错;汉字的排序检索问题也深深地
困扰着我们,以偏旁部首,以起始笔画,以笔划数目,以四角号码数,或
是以这几类的综合特征来排序均难尽人意,现代汉语拼音方案出现后,根
据汉字的拼音特征,利用西文字母顺序才较为满意地解决汉字排序检索问
题。

 正是考虑到古老汉字的这种繁杂、不规范性所导致的汉字难以传输、
打印,我国下决心对汉字进行大幅度的改革,先是进行了汉字的第一次简
化。这次简化方案一方面简化了一些汉字的笔画,使这些字的笔画数减少
一半,另一方面归并了一些异体字。第一次简化对于汉语的规范及普及教
育功不可没。

 与此同时国家大力推广普通话,实行汉语拼音方案。汉字造字时通过
形声的声部表达字音,但经过长时间的流传后,汉字的发音发生了很大的
改变,再靠“秀才认字认半边儿”的方式来读汉字,只能产生很多笑话。

 到了公元前两百多年前,汉语开始用反切法来标注汉字的读音,即用
一个常用汉字的声母及另一常用汉字的韵母来标注某一汉字的读音,如“
塑,桑故切”,但作为读音标准的“桑”字的声母,“故”字的韵母是什
么,只能靠先生口授,还是没有符号来标记。

 1918年由北洋政府公布了注音符号系统,符号形式是根据篆书改写而
成(如ㄅ、ㄝ、ㄎ、ㄞ等),使得每一个汉字的读音有了一个确切统一的
标注方法。

 1958年全国人大批准了国家语言文字改革委员会(现国家语言文字工
作委员会)所拟订的汉语拼音方案,改用国际通用的拉丁字母系统来拼写
和标注汉字读音。汉语拼音方案的施行,大大地有利于帮助识字,统一读
音,推广普通话,同时有利于国际交流。

 一代伟人被汉字规范的大好形势所鼓舞,宣布汉语最终要走拼音化的
道路,其设想是通过几次大规模的汉字简化后过渡到使用拼音文字。正是
在这一思想的指导下,我国于七十年代后期实施了第二次汉字简化方案,
这一方案,缺乏合理的简化依据,一些汉字已简化得如同日语,不再横平
竖直,如“事”字简化得跟“ 3”差不多。

 另外这次简化方案是在港台及海外华人仍在使用繁体汉字的情况下进
行的,也造成了海内外汉语交流的隔阂。很快这一方案被废止了。与此同
时,专家学者大声疾呼:汉字是音、形、义高度统一的文字,结构精炼,
因为字形丰富,阅读速度快,拼音化后同音字词太多,容易产生歧义。汉
语拼音化的进程总算被中止住了。

 七十年代,计算机开始进入中国。作为先进的文化载体,快速的语言
信息处理工具,计算机在利用西方语言方面取得了巨大的成功。在计算机
出现以前,西文打字机键盘早已定型,计算机很自然地利用了键盘这一录
入工具。

 此时巨大的难题摆在中国人的面前,也引起全世界科技领域,特别是
信息处理专家的极大兴趣和强烈关注:世界上唯一仍在通用,并且使用人
口最多的最古老的文字--汉字,和二十世纪的最重要的发明——计算机产
生激烈的碰撞,古老与现代的碰撞引起必然的轰动效应,轰动效应首先发
生在冲突的最前沿:汉字如何进入计算机,如何在计算机系统内为每一个
汉字设置点阵字库,使得汉字能显示在屏幕上,或打印在纸质材料上?如
何才能将汉字能够输入到计算机内?

 为汉字设置点阵字库,倒不是难事,只是西文就几十个成千上万,字
库的规模要大好多倍。解决输入问题就太难了,键盘问题重新处于焦点位
置上了。排版机的使用者只是极少数的排版工人,而计算机键盘的用户则
是数以亿计的计算机操作者,因此输入设施不能过于复杂,过于昂贵,输
入方法也应该容易掌握。此时设置整字输入的汉字大键盘显然不合时宜。

 契机也因此而产生,计算机明显不同于打字机,打字机只能通过机械
传动,机械地击打出一个个字符,一个键只能打印一个字符,配备上挡辅
助键后,一个键也只能击打出两个字符;而计算机则具有运算功能,可以
进行编码转换,计算机键盘可以作为输入指令的工具,计算机通过键盘接
收到编码后,自动翻译转换,寻求与编码匹配的点阵字库,并将相应的汉
字显示在屏幕上。

 这样计算机键盘上的每一个键就是一个编码码元,计算机键盘就不再
是打字机键盘的简单移植,而如同电报发报机的键盘了。很快,利用编码
的小键盘就淘汰了打字机式的汉字大键盘。现在的问题是如何设计一套规
范合理的编码,编码方案要做到能让使用者利用较为简单的编码规则,对
于每一个汉字能很快地知道其编码,而不用去背每个汉字的编码。四位数
的电报码编码无规律可言,所需要的记忆量太大,不可能被广泛地采用。

 各种汉字编码方案如雨后春笋般地涌现出来,在大陆,1978年支秉彝
完成了“见字识码”的小键盘输入汉字的设计方案,从而掀起了“编码潮
”的序幕,越来越多的人卷入到汉语与计算机大碰撞的旋涡之中,形成了
一个规模巨大的群众性科研活动。

 经过五年的不懈研究,王永民于1983年发明了“五笔字型”输入法,
“五笔字型”是大陆第一个成熟的编码方案,很快就占领了大部分市场,
以致于在八十年代后期、九十年代初期,许多人的头脑中有了这样的一个
观念:学习计算机就是学习五笔字型,会不会电脑就是会不会五笔的事。

 利用汉字的字音特特征,也是编码的一个重要努力方向,早期音码因
为其重码率太高,曾被形码逼到山穷水尽的地步,后来因为其丰富的词汇
量、完善的智能功能、整句输入功能,再加上其利用了人们的拼音知识基
础,学习容易,到了九十年代音码又被许多人所采用。

 在港台及海外,以“王安三角”为发端,陆续涌现出“仓颉”、“呒
虾米”、“行列”、“唯物”等一大批繁体汉字输入法。

 经过二十多年的努力,汉字进入计算机已完全不成问题。几个月前关
于繁体字的讨论甚为激烈,一些网友主张在大陆废除简体字,恢复使用繁
体字,其理由之一是利用计算机输入繁体字不比输入简体字困难。现在我
们需要做的是如何规范出最科学的编码体系,使之成为全能化、固定化和
国际化的通用文字处理系统,如同西文确定键盘字母排列方案一样。

发件人:川昊
……………………………………………………………………………………
3.汉字遭受偏见

 目前汉语键盘输入法的研制几乎是在无政府状态下自由进行的,没有
国家标准可依,也不受法定准则的制约。虽然各种输入法数以千计,并以
“万码奔腾”之势层出不穷,但只有百花竞放,并无推陈出新;只有千帆
竞发、百舸争流之态,并无一柱擎天、众星捧月、众望所归之作。

 汉语编码输入的优越性尚未体现出来,各种输入法还存在种种弊端:
学习困难、词汇少、重码多导致输入速度慢,另外不支持国标字库扩展码
( GBK),大量的生僻字输不出来,如朱总理的“镕”字(常在网络上见
到“朱(金+ 容)基”字样)、氹仔(澳门的一个岛屿)的“氹”字、二
○○○年中的“○”字。

 这导致许多人对汉语仍有很大的偏见:他们认为古老的汉语与二十世
纪最重要的发明——计算机是格格不入的。常听到、见到这样的言论:计
算机、英语、汽车是进入二十一世纪的三把钥匙。信息社会的迅猛发展,
人们生活水平的大幅度提高,轿车家庭化趋势日渐强烈,称计算机、汽车
为钥匙还说得过去,英语与之并列则太牵强了。对普通的中国人来说,在
我们的日常生活中,英语就那么重要?学习掌握先进的科技及高水平的管
理经验就一定离不开英语?

 这种偏见也让英语的文化殖民主义大行其道,这一殖民过程渗透到了
我们的日常生活中,无处不在:武汉某高校一位非英语专业毕业生一定要
用英语写他的毕业论文,用英语来答辩;有人移民国外,来中国时,如果
国人用汉语同他交谈,他就认为是在侮辱他的智力;近年来,各地贵族式
的英语学校身价一抬再抬,只要财力允许,大多数家长会将孩子塞到那里
去,在国内追求那种会话、授课完全用英语的全方位的英语环境;如果孩
子秉性聪慧,不少家长会送他到英语班,在繁重的学习之外开小灶,强化
英语,而不会同样程度地关注孩子的母语即汉语的学习水平及提高幅度,
家长的目的很明确:让孩子长大后好去国外发展;

 美国有了个 NBA,中国的篮球联合会就叫CNBA(中国篮球联合会现在
叫 CBA——编辑注),中国大学生篮球联合会竟取名叫CUBA(古巴),还
写了一支歌来高唱;作为国家级电视台,中央电视台办个英语新闻节目或
许有所必要, 各省市电视台竞相效仿, 各自办了英语新闻栏目,水准不
高,收视率也低,确实不必;没有丝毫外资背景的企业,产品仅在国内销
售,也常会给产品取一个莫名其妙的英文名称。

发件人:川昊
……………………………………………………………………………………
4.我们的汉字还要不要改进和发展?

 这个话题很有意思,那么,我们的汉字还要不要改进和发展?对于英
文,所有的新字、新词都是由已有的26个字母组成,汉字呢?好像目前都
是发展新词汇,几乎没有新的字被创造出来了。我想中国文化要发展,少
量新的汉字还是有必要的。

 因此,我建议中国当前要做的是把汉字“规范化”——这不是说传统
的要写规范字的意思,而是说汉字的偏旁、部首、形态、发音等需要规范
化!减少汉字的偏旁部首的种类,规范它的形状及发音。让我们一看到某
个新汉字就知道它的发音,就可以大致猜测它的意思。相反,当我们听到
某个字的偏旁部首及结构时我们就可以“准确”的写出这个汉字,即使我
们没有见过这个汉字,计算机也可以算出汉字的显示点阵!这样,汉字就
部分字母化了,但仍有形状的特点——由形表意。当然,我们对旧的汉字
不作大的改动,但是要求规范化。

发件人:Dragon
……………………………………………………………………………………
5.哪个重要?

 英语固然重要,但也没有重要到是我们进入21世纪的三大“钥匙”之
一吧?中国12亿人口,还有至少7亿在农村,其中至少还有5亿生活在比较
贫穷的“落后”的地方,英语对他们的重要性,可能只有天才知道。“重
要”是重要,关键是一无用处,一点实际作用都没有的东西,怎么能叫做
“钥匙”?

发件人:sunny
……………………………………………………………………………………
6.我们的近邻对待汉语观念上的转变

 有道是“墙内开花墙外香”,正当一些人对汉语持妄自菲薄态度的时
候,我们的近邻对汉语的观念却正在悄悄发生转变:新加坡前总理李光耀
一再告诫新加坡人,必须学会讲汉语,即使每个新加坡人都讲英语,西方
人也不会把新加坡人看成是英国人或者美国人。一个民族必须有自己的民
族语言,才能受到别人的尊重。

 路透社新加坡1999年 1月20日电:新加坡副总理李显龙今天说,新加
坡将修改教育政策,以鼓励人们熟练掌握中文。李显龙在向议会概述教育
政策改革时说:“这些改革将有助于使优秀的中华文化作为我们这个多民
族社会的一个重要组成部分,而得到维护和发扬。”他说,筹划中的政策
改革将有效制定汉语学习方案,使之适合能力参差不齐的小学生,并且鼓
励延长学习阶段, 有三个趋势促使这次改革:说英语的家庭日渐增多,越
来越多在国外工作的公民需要保持新加坡人的本色,中国的快速发展和开
放。他强调“母语是我们价值观、根源和特性中至关重要的部分”。

 很高兴看到这样一则消息,据新华社汉城1997年11月23日电:最近,
韩国社会各界名流发起了在全国大力推广汉字教育的运动,呼吁政府废除
目前实行的“韩文专用法”。11月17日,韩国学术界等众多知名人士和社
会团体的负责人等约1500多人在汉城召开了推广汉字教育的集会。代表们
说,21经纪将是由“西势东渐”进入“东势西渐”的时代,因此加强汉字
教育势在必行。

 两个月后政府有了回应:据1999年 2月11日的日本《产经新闻》报道
,韩国政府决定,对公文中的人名、地名和历史名称以及路牌等,采取朝
文和汉字并用的书写方式。为加强对传统文化的理解,促进与中国、日本
等汉字文化区的交流,配合这一书写方式,韩国政府还打算在初中和高中
增加汉字课的课时,并修改教育用汉字的范围。韩国总统金大中说:“朝
文和汉字并用是必要的,忽视汉字就难以理解古典和传统文化。日本采用
假名和汉字混用的办法,在文化和学术方面取得了很好的发展”。 

发件人:川昊
……………………………………………………………………………………
7.不敢苟同
 对于该文章中确认的汉字的落后的观点不敢苟同。人类所追寻的最完
美的文字表达方式是什么,我想在倪匡先生的卫斯理系列中,大家应该可
以找到部分答案。比如说,(按照我读倪匡先生的卫斯理系列作品的个人
理解)卫斯理所接触到的外星文字,甚至是一个字可以表达非常复杂的意
思,我想在这一方面,汉字无疑是全世界文字中算是很优秀的了。

 何况结合高科技的计算机表达而言,用最少的存储空间存放尽可能多
的信息,一直是全世界的计算机工作者的追求,按此来说,汉字更加是优
秀的。更不用说汉字说包含将近五千年的民族文化,如果将此文化进行高
度的扩展,进而涵括全人类文化的话,何谓最好的文字表达方式可想而知
了。

 如果仅仅因为所谓的“过于复杂”而对汉字进行否定,是否太失于偏
颇了呢?试想在知识未完全普及的时代,数学、物理、化学等等这些科目
又何曾未被说过“复杂”呢?更何况被认为是“巫术”是“妖法”,在科
学普及的当今,谁这么说呢?人类对于自己在现阶段无法理解的知识总是
喜欢用某些观点去加上强认的解释,但是事实到了普通大众都可以理解接
受的时候,回头再看人类自己所走过的所谓“认知”之路,应该笑还是应
该哭?

发件人:X_MAN
……………………………………………………………………………………
8.用字造词是门学问

 记得1998年国家语改委公布了这样的决定:汉字简化工作已告结束;
下一步任务是研究汉语拼音化问题。对于汉语拼音化问题,我认为是走不
通的,已有网友做过论述,不再啰唆。对“汉字简化工作已结束”的决定
,应该是正确的。为什么停止汉字简化?我觉得有这样两个因素不容忽视
,一是增加了汉语教学(主要是海外)的难度,二是将给计算机软件业带
来巨大的麻烦,一般来讲,新字应该是较常用字,否则,就没有造字的必
要,对此,众多的汉字输入法软件要修改字库,汉字平台要补充完善。计
算机用户因为区区几字要为自己的软件升级。所以说,少量的新字出现是
可以的,如发现新元素、新物质,可适当造新字,元素周期表中的字大
部分就是这样产生的,而这些字是不常用的。

 用字,用词或是造词是门学问,“侃”、“酷”这些词用得多好!浙
江省1991年出了一件事:一个新生儿降生,这个家庭很民主、开化,孩子
的六个家长(父母、祖父母、外祖父母)共拥有四个姓,六个人为孩子到
底姓谁的姓发生了争论,最后决定,孩子姓“点”,四人共同拥有之意,
汉民族的一个新姓诞生了。若这个家庭去造新字作为孩子的姓,这便不是
社会文化新闻,而是给社会添乱了。

发件人:yu
……………………………………………………………………………………
9.英语地位提得太高

 我同意川昊的看法,英语被提到了不适当的高度,这样是没有好处的
(当然,本人的英语还是不错的,呵呵),几乎变成离了英语寸步难行,
尤其在中国的各种重大考试中表现的最明显,这很不合理(我就不再重复
中文的各种英语无法企及的优点了)。对于中国人,我认为只有语文和数
学才是必不可少的,其它的都是可以选择的,用什么就学什么,也许很多
人觉得现在英语简直无处不在,不学不行了,其实仔细想想,就会发现,
这样的形势百分之五十是我们的政府部门错误的英语教育导向造成的,根
本不是客观需要。

 举个例子:英语和政治在高考和研究生入学考试中都是必考科目,这
在很大程度上错误引导了英语和政治教育目的,使本来很简单的一种语言
工具变成了一种耗费大量时间金钱的类似欧洲中世纪经院哲学的无用研究
。所以我觉得要改变这种情况,必须从政府作起,把它从教育指挥棒中降
到适当的位置。还是那句话:用什么就学什么,当然作语言研究的另当别
论。

发件人:未名
……………………………………………………………………………………
10.民族语言应保留文化底蕴

 随着历史的发展,汉字,英语,法语,凡此种种必将全部湮灭,统一
为一种易记,易写,易读的语言(如现在的世界语)。但这不知是多少年
后的事情。在当今民族林立的世界上,语言不仅仅是本民族交流思想的工
具,也是民族文化的象征和民族凝聚力的落足点。从这个意义上说,我们
的民族语言应该尽量保留其丰富的文化底蕴,不必为图省力而急于简化。
汉字是象形文字,唯形可以载神,形神兼备的方块字甚至蕴涵着东方的哲
学和文化思想。一部说文解字,令人神游千里,深深折服于祖先的聪明睿
智。

 龙的传人无论走到地球的哪个角落,一看到那熟悉的汉字,无不亲切
莫名。若论难记,难写,那是外国人的事,中国人从小耳濡目染,笔画手
练,绝无学不会之理。怕国际交流不便?不要紧,勤劳聪明的中国人可以
学英语。我以为,大陆的简化字就是多此一举。现在我们习惯了简化字,
觉得方便,可是如果一直用老祖宗的繁体字,几千年来也从来没不习惯。

 最核心的问题是,当此霸权不走,战争不散的年代,我们要在世界范
围内争取最大的统一战线,就不应忽视全世界的华人华侨。现在的简体字
势必已让用繁体字的华人感到了一层隔阂,若再参照拼音文字的造字规则
来个简化(或曰规范化),岂不是形同生造了又一种文字?越南古代用汉
字,现在取其音而去其形,现在的越南人哪里还肯费工夫去体会包含在拼
音代表的字形中的妙味。我们今天若是也赶这么个时髦,隔阂了海外华人
不说,恐怕还要丢掉老祖宗的文化精髓。

 不当之处,敬请指教。

发件人:舟叶
……………………………………………………………………………………
11.汉字的字数

 在当今各民族使用的各种文字中,汉字的历史最为悠久,从商代的甲
骨文至今已有近四千年的历史。在漫长的汉字发展演变过程中,汉字的数
量不断增加,收入辞书的汉字数量接近六万,未收入辞书的就难以详尽统
计,经大陆和台湾的一些学术团体的收集整理,认为楷体出现以后的汉字
总数约在九万左右。

 汉语在其发展过程中,字数历朝历代在增多,以历代编纂的辞书所收
集的汉字量为例:西汉《仓颉篇》所收汉字为3300个,东汉《说文解字》
共收9353个,南朝《玉篇》22726个,宋朝《類篇》31319个,明朝
《字櫜》33179个,清朝《康熙字典》 47035个,民国《中华大字典》
48000个,1986年《汉语大字典》54678个。

 剧增的原因是新生事物、新生思想的出现,表达新生东西的词汇相应
产生,于是就增加了词汇量,在文言文中词汇多是单字词,于是字就越造
越多。

 且看古人是如何围绕马来造词而产生大量新字的:好马称之为骏、骥
、骜;少壮的马称之为驹;劣马称之为骀;跑不快的马称之为驽;骊是指
黑色的马;骅是红色的马;骢及骓是毛色青白相间的马;骃是浅黑带白色
的马;骆是黑鬃的白马;驿站用的马称驲;拉一辆车的四匹马称驷;共拉
一辆车的几匹马中靠外的马称驸、称骖;加上传说中各种神马的名称,再
加上养马、驯马、骑马所用各种工具的名称,所造的字需要以百来计数。

 在古代不可能进行大范围内的汉字传播交流,印刷术出现以前,汉字
都是手写刀刻的,印刷术出现后,添加字模也容易,因而对汉字的规范性
要求就不高,古人造字的随意性也就很强。如黄山古称黟山,只因山上多
期的流传过程中产生了大量的异体字,即跟正体字同音同义而写法不同的
黑石,就造出“黟”字来,称为“黟山”。这种随意性还表现在汉字在长
字。孔乙己就能知道“茴”字的各种写法。更令人惊奇的是百寿图、百福
图中“寿”字、“福”字有一百种写法。

 新生东西不断出现,不停地造字以表达新生事物,再加上大量的异体
字,汉字就越积越多了,要认识五万左右的汉字已是一个极大的负担。

 好在“五四”运动现代白话文的兴起则及时制止了这一趋势,现代白
话文不再用单字词来表达新词汇,并将部分原有的单字词改用多字词来表
达,大量的生僻字开始消亡。我们现在常用的汉字仅有五、六千,一般用
字典、词典所收集的汉字一万略多一点。大量的汉字仅在古籍中存在,另
外日文、韩文中保留部分古汉字。

发件人:川昊
……………………………………………………………………………………
12.只要适合

 现在局面还是比较好的,键盘输入,就是要让万码奔腾,让每个研究
编码的人都可以发挥自己的聪明才智。至于编码好不好用,就让实践和时
间来检验好了。不适用的方法肯定要被淘汰,这和英文打字键盘的情形相
类似,前几年还有很多人不断研究出新的键盘布局,但是都没能推广。

 国家语言文字委员会发过一些文件,指导中文输入的研制,这方面可
说是有法可依的,有兴趣的朋友可以参考有关杂志,我在国内大学图书馆
看到过很多,印象里面好象有好“中文信息处理”杂志等。

 输入法的设计,可以自由发挥,但是一些最基本守则还是应该遵守,
比如能够输入 GBK 所有汉字,这是最基本的了。

 计算机、英语、汽车是进入二十一世纪的三把钥匙,经常听到有人这
么说,我在移民论坛还听说了第四种技能,就是填税表(在北美填税表是
个很令人头痛的问题,实践上也是会者不难),还有人说是打hockey。

 在现代生活中英语还是很重要的,这是改革开放的基本国策的需要。
可能有人说,学英语干什么,到电影院看美国大片里面都讲中文,其实那
是译制厂的同志们翻译的,不是片中人在用中文对话;如果英文好,就可
以到译制厂参加翻译工作,给大家服务,不是很好吗。英语确实有难学之
处,但是功夫不负有心人,很多中国人都讲很好的英文,甚至和中文一样
好,这不是什么坏事情。有人到国外发展,也未尝不可,当初很多欧洲人
开着西班牙大帆船到处转悠,为什么我们中国人就不能到海外闯闯?

 国内厂家给产品取洋名的问题确实很好笑,比如“令国人骄傲的民族
品牌- TCL”。实际上台湾比大陆开放很多,但是台湾的很多公司和产品
都是用纯粹的汉语名称,也没有影响其生意。

 回到汉字输入的问题,我自己用的是双拼,键盘布局是中文之星的新
双拼,之前还用过金山SPDOS的双拼,后来到Windows,只好用新双拼,两
者差别在于金山双拼“ing”在“;”,而新双拼“ing”在“q”。到北美
留学,发现中文之星不能在NT上运行,就下载了南极星,并将其键盘布局
改成了准新双拼的样子来用,因为南极星设计的原因,不能改成和新双拼
完全相同,反正我就凑合着用,这叫有什么武器打什么仗。

发件人:嘻嘻英雄
……………………………………………………………………………………
13.汉字是极为优秀的文字

 昨天Dragon网友提出的对汉字的偏旁、部首、形态、发音进行规范,
规范字形及发音,见字就能知道其发音,就可大致了解字义的建议,这可
能是汉字的长远的改革目标。但我认为在近期还不能实施,当前汉字已经
有简繁体之分,已经存在着相互交流的障碍。前天看华娱卫视台,大多东
南亚华人还在抱怨简体汉字的部件已失去原有的丰富内涵,倒不好学。等
所有的中国人都使用一样的字体,并保持一段时间的稳定后,再实施改革
方案是比较恰当的。

 但汉语的发展不需要通过再造新字的途径来实现,我们的当前要做的
正好相反:归并过多的汉字,发展多字词汇。用五、六千个常用汉字来组
词,比起用26个字母组词来说,其组合空间近乎无限大。

  X_MAN网友可能误解了我的意思,我在前期文章中列举了一些人对汉
语失去了信心,表述汉字与计算机结合产生的一些问题,说明解决这些问
题的迫切性。但这些问题完全可以很好地解决,我同 X_MAN网友一样确信
:汉字是极为优秀的文字!这一点我将在下一期进行论述。

发件人:川昊
……………………………………………………………………………………
14.汉字编码不应再混乱

 嘻嘻英雄认为目前汉字编码万码奔腾的局势是好的,应通过自然淘汰
决定最优编码方案。对此我不敢苟同,目前的混乱局势对汉字的规范已经
产生许多不良影响:不成熟的输入法以“正统”的计算机汉字文化的约定
俗成的法则,“强迫”人们接受许多不合理的东西,等其普及开了后,再
来纠正就要付出很大的代价,就如同计算机2000年问题。

 “五笔字型”对一些字的拆分笔顺不符合规范,其使用的字根(规范
称呼应是汉字部件)有 30%不符合部件规范,导致其对某些字的拆分方法
让人难以理解。但它先入为主,已被大家广泛接受,现在让大家改过来就
有一定难度了:符合规范的“98五笔”因改动较大,反倒不被看好。

 计算机的汉字输入方式方法“群雄割据”,随着计算机在全国范围内
的普遍应用而悄悄地肢解着汉字,“书同文”的全国统一形式事实上受到
了威胁。

 历史经验一再证明,一种新技术只有通过规范化和标准化,才有可能
大范围地推广,产生出巨大的社会、经济效益。例如,五线谱记音体系统
一了音乐记载工具,使得音乐构思得以精密表达;计量单位的标准化推动
了工业的发展。

  汉字编码同样需要进行规范引导, 正如嘻嘻英雄所言, 鉴于汉字编
码,特别是拼形类编码的混乱情况,相关部门正在进行相应的规范工作:
1997年底,国家语言文字工作委员会与新闻出版署联合召开新闻发布会,
同时发布了《信息处理用 GB13000.1字符集汉字部件规范》和《现代汉语
通用字笔顺规范》,据称 GBK大字库笔顺规范将于十月左右颁布,其他如
基础部件部件序列规范、部件的读音规范等一系列规范正在研讨之中。

发件人:川昊
……………………………………………………………………………………
15.简单易学的汉字输入方法

 计算机技术中汉字输入和汉语输入是二个不同的范畴,汉字输入是利
用键盘或手写板等输入设备和一定的编码技术(如拼音,五笔等)将汉字
输入计算机内,而汉语输入则是利用多媒体技术和语音识别软件将使用者
所读出的汉字输入计算机。因此我们必须将这二者分开讨论。

 语音输入是计算机输入技术发展的方向,因为它对使用者来说是最为
方便的,但语音识别则是较为困难,据我所知,汉语的语音识别要比英语
较易实现,目前市场上已经出现的汉语输入软件的识别率是比较高的,而
英语的语音输入技术目前所能达到的识别率则是远远不能令人满意的。这
个差别是汉语和英语发音方法不同形成的, 换一句话说, 在语音输入方
面,汉语要比英语更适合计算机。但若考虑到中国的方言之多要在短期内
实现汉字的语音输入还是有很大的困难。

 汉字输入可以用键盘或手写板实现,后者使用特别方便,几乎不用学
习就能使用,但输入速度太慢,目前手写板设备价格与计算机相比也太贵
了一点,普遍推广尚不成熟。键盘是计算机必备的输入设备,在今后相当
长的一段时间内,我们还得用它输入汉字。所以至今还有许多人在寻找一
种方便易学易记的汉字编码方法。

 目前使用最广泛的编码方法是拼音和五笔,前者尽管重码率高,但对
普通话发音正确的人来说,几乎不必学习就能使用,因此有很多人在使用
它。五笔输入法则以它的低重码率,输入速度快受到打字员和文秘等专业
人士的喜爱,但它编码规则复杂,学习起来较困难,在非专业人士中用它
的比例就不那么高了。

 其实汉字编码无非是用汉字的音或形实现,用音实现编码对普通话读
音不准的使用者是不方便的,尤其是对南方人更是如此。用汉字的形实现
编码的关键是如何确定组成汉字的基本部件和如何将这些基本部件进行分
类,以有利于使用者学习和记忆。这些基本部件必须是识汉字的普通人所
熟悉的,那么,这些基本部件就一定是笔划和偏旁(部首)。单用笔划实
现汉字编码的结果重码率一定很高, 输入速度必定很低。 用偏旁作为基
本部件加上合理的分类就能达到重码率不高,输入速度不低易学易记的效
果。

 在读小学时每个人就已经学习了偏旁(部首),所以对识汉字的每个
一个人来说,偏旁(部首)是非常熟悉的。其实,许多偏旁不只是出现在
偏旁的位置上,偏旁也大量地出现在其他部位上,例如“偏”字中户是汉
字中的一个偏旁, 但它在“偏”字中的位置却不是偏旁。 因此我们可以
说,“偏旁”是组成汉字的基本部件,利用它来拆分汉字是简单易学的。
例如:“音”字可以拆分为由“立”和“日”两个偏旁组成。接下来的问
题就是如何将这些偏旁进行合理分类便于人们学习和记忆。

 汉字的大多数偏旁都是有一定的含义,利用偏旁的含义进行分类就能
有利于学习和记忆。笔者将汉字的偏旁主要按其含义(辅以偏旁的形状)
分为 “ 金,木,水,火,土,日,月,山,人,身,口,耳,衣,食,
住,行”等廿六类。例如:将“子,人,父,母,女,儿,入,孑毋”归
于“人”类,将“衣,皮,丝,麻,尺,寸”等归于“衣”类,将“口,
牙,齿,舌”等归于“口”类,将“食,马,牛,鱼,羊,豕斤”归于
“食”类。很明显主要按偏旁的含义进行分类,特别容易学习学会以后也
不容易忘记。在分类中也辅以偏旁的形状,例如:“入”和“人”,
“毋”和“母”的形状很相似,我们就将“入”和“毋”归于“人”类。

 笔者将这种按偏旁的含义和形状进行分类形成的汉字编码称为“意形
码”,它的重码率低于30%,最大重码数小于10(即输入时无须翻页),
输入速度远高于拼音输入法,学习速度远高于五笔输入法,笔者在学生中
统计过教学试验,上半天课就能基本掌握“意形码”的拆分方法了,再用
半天时间上机练习就能实际使用了。

 笔者已经完成“意形码”在UCDOS和WINDOWS下实际应用软件,有兴趣
的个人可以和我们联系,我们对个人免费提供“意形码”的应用软件。
请mailto:lujohn@21cn.com。

发件人:luyq
……………………………………………………………………………………
16.强烈要求取缔汉字

 我是一个电脑部人员,我的主要工作是保证公司数以百台机的正常工
作,以及与香港等地的E-MAIL往来。以我多年的工作经验,我有80%的时
间是在处理由于汉字而产生的问题,本来光汉字本身已经够烦的了,再加
上又分简体、繁体,以及各种名目繁多的输入法,还有以简体拆字但又要
输出繁体的某某输入法,还有要以广东音拆字等等,电脑经常出的问题就
是“要么乱码,要么看起来好好的,但打印出来乱码,或者以 EMAIL发出
去但接收方又乱码。”

  总之,每天忙忙碌碌,但做的都是这些无聊顶透又不能提高自己水平
的事情。有时实在搞不清楚是怎么会事,只好一气之下重装 WIN95,有时
甚至要低级格式化硬盘,一搞又搞它两、三个钟头。总而言之,如果少了
这些麻烦事,中国会多出许许多多的精英分子去做真正的电脑技术研究,
这对我们现在并不先进但又十分重要的电脑技术来说,无疑是十分有推动
作用的,并且会大大提高中国人的生产效率。

 我说这些话可能让那此“爱国”的“民族主义者”大骂我什么什么,
但是,我要告诉你,一个真定的爱国者并不是要死抱住祖先留下来的东西
而是该改进的时候要改进,该抛弃的时候就要抛弃,总之,我们的所有决
定都要以民族利益为大前提,而不是以某些感情或情绪为依归。放弃汉字
可能许多人都在感情上受不了,但是,对我们的子子孙孙来说,无疑是一
个新纪元的开始,其得益远远超出我们的想象之外。如果一定要在对不起
祖先与对不起后辈两者来做选择的话,我宁可选择前者。

发件人:163
……………………………………………………………………………………
17.汉字不能简化

 我反对对汉语实行简化和拼音化,现在已经有人不认得繁体字了,这
样下去,我们民族古代书卷和文化精神怎么流传下去?一旦发生大的战争
文明毁于一旦,将来的人发掘出的文物资料,恐怕就像我们看甲骨文一样
如同天书了。

发件人:杂闲
……………………………………………………………………………………
18.简化字好
 我不在国内。我接触到许多海外华人。许多都是从台湾,香港来的。
他们都认为简化字好,虽然他们写不来。但他们都认为简化字教他们的子
女,特别不是在汉语环境中出生的子女,要比繁体字来得方便,易学。

发件人:点石成金
……………………………………………………………………………………
19.在计算机文字处理系统中,汉语的优越性

 汉语文字精炼,言简意赅,冗余度低,以最少的符号表达最丰富的含
义,下面从信息学的角度予以阐述。

 汉字、西文字母作为语言文字的最基本单位,用以构成词汇、句子,
传达一定的信息,是信息的载体,如何对每一个汉字、字母所负载的信息
进行度量?

  现代信息学用熵来衡量平均信息量 , 熵表示指定符号出现的不肯定
性。 西文字母采用的拼音文字字母有30个左右, 汉语以方块字为书写单
位,数目成千上万,显然其随机出现的不肯定程度比西文字母的不肯定程
度要大得多,从这一角度讲每个汉字载荷的信息量远远大于一个字母的信
息载荷量。

 但考虑到各个汉字出现的概率相差很大,生僻字出现的机率非常小,
而各个西文字母出现的概率相差不大,因此用一种语言中各字符的出现概
率为权数,求得所有字符的熵的加权平均值来表示该种语言各个字符的平
均信息载荷量,这个加权平均值称为零阶熵值。

 香农等人经过统计计算,得出法语字母的零阶熵值为3.98比特,意大
利字母零阶熵值为4.00比特,西班牙字母零阶熵值为4.01比特,英语字母
的零阶熵值为4.03比特,德语4.10比特,罗马尼亚语为4.12比特,俄语为
4.35比特 。 八十年代后期北京航空航天大学对汉语进行大规模的统计计
算,得出汉字的零阶熵值为9.71比特。

 同理以词为单位,可以计算词的零阶熵值,经计算英语词的零阶熵为
10.0比特,汉语词的零阶熵为11.46 比特。这表明汉语的词义也比英语丰
富。

 语言文字的另一个综合特征统计参数的是冗余度,用它可以反映由于
语言结构的原因造成的句子中冗余符号的所占比例。

 如“近代史上的民族英雄林则徐,因为他的事迹拍摄过电影,几乎家
喻户晓了。”这一句子中包括标点符号共有33个符号。有人做过试验,删
去其中的17个字符,仍能表达原意,也就是说这17个字符是冗余的,这17
个字符所载荷的信息已包含在或通过语法、语义隐含在另外的16个字符中
了。现代汉语中的量词就是冗余的汉字。

 但冗余的字符并非毫无用处,去掉它们后句子就不符合语法规范,或
者影响到语义的精确性,就像电报用语冗余度低,却容易产生歧义。

 一种语言的冗余度难以精确统计,经专家测算,英语冗余度的上限为
80%,下限为67%,平均值为73%;俄语的冗余度平均值约为70%;现代汉语
冗余度的上限为73%,下限为55%,平均值为 63%,文言文的冗余度就更低
了。

 冗余度高的语言结构性好,语言信息精确,纠错能力强;冗余度低的
语言则因为精炼原因有利于编码,易于信息传输,口头和文字表达都比较
灵活。

 联合国使用的几种语言,同一份文件,需要几种版本的材料,结果中
文版的材料比其他语言版本的材料薄得多,这一点从事实上证明了汉语的
精炼性。

 一般英美大学毕业生的英语词汇量在八千左右,考“托福”所需的词
汇量为五千至六千,考“ GRE”需要的词汇量是八千至一万。英文中的词
语义项具有名词、形容词、动词、副词多种词类形式,也就是说几个词语
表达的是同一义项,只是语法功能不同而已,因而英文中常用的义项就更
少了。

 而现代汉语的词汇就相当丰富了,仅常用词汇就有四、五万,这只是
一般中学毕业生的词汇水平,且这些词语所表达的义项各不相同,不存在
同一义项因词类不同有几种词语形式的情况。汉语中光成语就大几千个,
且无一不是典故,个个都有完整的故事情节,这其中所蕴含的文化内涵可
谓博大精深。

 汉语组词方便,用字与字的组合来造词十分方便,如电电灯、电话、
电视、电线、电扇、电脑、电池、电影、电流、电车、电报、电梯,易学
易懂,就是生词,一见便能知其大意,也非常便于记忆,丰富的词汇量丝
毫没有让我们感觉到记忆的困难。用英文表达上述各词,则互不相关,难
以记忆。

 利用计算机键盘进行编码输入时,词语可以作为一个整体进行编码,
只取词语所包含的部分汉字的部分编码特征组成词语编码。大部分的编码
输入方案中,词汇的编码长度为四键。两字词中平均每字负担的码长为两
键;三字词中每字1.33键;四字词中每字一键……在现代汉语中,两字词
在所有词语中的比重最大,达91.57%,三字词占5.10%,四字词占 2.75
%,五字及五字以上的词语比例为0.58%。因此可以计算出,进行词语输
入时,平均每个字只须1.93键。

 现代汉语的词汇丰富,而词语可以进行整体输入,这就大大加快了输
入速度。对词语进行整体输入是汉语计算机键盘输入的一个巨大优势。在
汉字键盘输入的初期,确实是以单字形式逐一输入的;而现在各种输入方
法,大部分的文字内容是以词语形式输入的,以单个汉字形式输入的只是
其中的一小部分,从这个角度来考虑,“汉字输入”这一概念已经不准确
了,应该用“汉语输入”、“中文输入”来替代。

 至于那些单个的字,常用输入编码方案所定义的码长为三键或四键。
设计编码时可以为那些使用频度高的汉字设置简码,码长为一键或两键。
只要编码设计得当,现代汉语中的大量常用字均可用一、两键外加一空格
键(结束简码的标志)输入。因此能够做到输入单个字时平均击键次数不
超过三次。

 利用词语、简码输入方式,减少击键次数,另外汉语的字之间没有空
格,也减少了击键次数,这些都提高了汉语键盘输入速度。西文计算机键
盘输入虽学习简便,但其在输入时词语的每一个字母、符号及词之间的空
格都需要逐一录入,速度就慢得多了。汉语的精炼特点也是其输入速度快
于西文的一个原因,可以说,面对计算机,汉语毫不逊色于其他语言。

 当然,汉语输入须利用编码, 要学习编码规则, 学习起来有较大难
度,但只要我们现在能够规范、优化目前的各种编码行为,让汉字编码进
入一个有序的状态,再经过一段时间优胜劣汰的竞争,选择一两科学合理
的汉语编码方案,并将这一方案贯穿于小学识字教育之中,也能让绝大部
分人熟练地掌握。

 经过二十多年的努力,汉字进入计算机早已不成问题,各种输入法层
出不穷,数以千计。现在的问题在于如何选择最优秀的方案,使之更臻完
善,更加优化,如何规范出最科学的的编码体系,使之成为全能化、固定
化和国际化的通用文字处理系统,如同西方早期所作的优化、甄选最合理
的字母键盘分布方案一样。当然汉语的这一过程要艰难的多,但只要完成
了这一步,西方语言将难以望其项背。

发件人:川昊
……………………………………………………………………………………
20.不要轻言“取缔汉字”

  163,你太偏激了,不要轻言“取缔汉字”。你的理由有两点:一是
汉语输入困难,二是操作系统不同导致的乱码。

  目前在汉语计算机输入方面确实存在不便,但有问题不能简单逃避,
正确的态度是理性地分析问题, 最终完满地解决问题。 汉语计算机输入
完全可以比英文做得更好,我提交这一话题的主要目的就是为了阐明这一
点。请阅读我此前及此后的文章,了解我对此观点的说明。

当前的多种汉字操作系统互不兼容,导致文件的互读性极差,而造成
这一局面更多的是人为的、 政治上的原因, 在技术上完全可以解决。中
国、日本、韩国共同制定的统一东亚表意文字字符集——国标字库扩展码
( GBK)共有 20902个汉字,包括现代汉语通用字表和邮电通信字符符集
的字符及其繁体、台湾地区的《通用汉字标准交换码》所含字符、一些香
港用字及日文、朝鲜文用汉字。 GBK已涵盖了Big5的全部字符,如果所有
的汉字操作系统均以 GBK为标准,在各种汉字操作系统之间交换文件将不
存在乱码现象。

简体、繁体汉字操作系统都可以做到支持 GBK,简体版Windows 95、
Windows 98就能够显示、打印繁体汉字。起码应在大陆坚决贯彻执行GBK
标准,建议信息产业部、国家语言文字工作委员会对此作出明确规定。

发件人:川昊
……………………………………………………………………………………
21.“汉语输入”与“汉字输入”的概念问题——与luyq商榷

 不能将汉语输入理解为汉语的语音输入,将汉字输入理解为汉语的键
盘输入。在汉字键盘输入的初期,确实是以单字形式逐一输入的,因而形
成了人们的汉字输入概念;而现在各种输入方法,不光对汉字进行编码,
更多的是对词语(此处特指多字词)进行编码,同时还应对现代汉语所使
用的图形符号(如℃、‰、¥等)进行编码。现在大部分的文字内容是以
词语形式输入的,以单个汉字形式输入的只是其中的一小部分。“汉字输
入”这一概念已经过时,应该用“汉语输入”、“中文输入”来替代。

 luyq网友对汉语的各种输入方式(键盘输入、笔式输入、语音输入和
扫描输入)作了一些论述,我也就此问题写了些文章,准备于下期发表,
愿与luyq网友共同探讨。

发件人:川昊
……………………………………………………………………………………
22.几十年后计算机不在乎你说何种语言

 我记得关于汉字与计算机的争论在索易早已有之,此旧话再度重提。

 我认为,因为计算机技术并非中国人所为,它没有考虑过中文处理虽
然情有可原,可这不能算是汉字的错。要求改革汉字来适应计算机,是典
型的削足适履,即不合理, 也不可行。 别忘了连简化字都有其简化的极
限,毫不夸张地说,一种语言就意味着一种思维方式,失去汉字,中华民
族也就不复存在了,对于全人类来说,也是一种巨大的损失。

 改革计算机显然要容易得多,何况它本来就在改革中。让计算机处理
的汉字的工作已经有很大的进展了,这总是事实。从技术角度来看,也许
将来会出现一种三字节的编码,一千六百万个字符足以包容所有语言的所
有符号,让全世界的人使用同一文字系统,谁敢说这不可能?

  认为汉字输入不便的人都忽视了两点事实:一是汉字的输入及处理方
法还在飞速地进步,翻译软件的功能也日驱强大;二是对于语音识别技术
来说,汉语是最容易识别的语言,IBM 公司的第一种商业化的语音识别软
件包是汉语用而非英语用的就是明证。

 这后一事实大概特别地鼓舞人心吧,可也不能因此就认为还是汉语优
越。技术总在进步,几十年后,计算机才不在乎你说何种语言呢!

发件人:肥猫
……………………………………………………………………………………
23.各类输入法的比较(上)

 计算机的输入方式按装置分有四种:键盘输入、笔式输入、语音输入
和扫描输入。各种输入各有千秋,都有各自的应用领域,并不是相互排斥
的对立物,而是取长补短、互济互补的协作体。各种输入方式的丰富多样
性,便于人们根据各自的条件、要求从中选择适宜的方式。

 笔式输入是从90年代发展起来的,目前有手写板和触摸屏两种输入设
备,因其设备小巧,广泛运用于掌上电脑。笔式输入与人们日常书写很相
似,是人们手书的变种, 感觉亲切, 无需记忆编码,其发展前景较为可
观。但是笔式输入的识别率不高,一笔一划地书写,速度慢,且长时间操
作笔式输入装置,硬笔对硬板,手易疲劳,效率下降,写字板或触摸屏的
磨损比较厉害。笔式输入适合于输入量小,不要求快速的地方,特别是对
畏惧学习记忆编码规则的中、老年人很合适。

 语音输入对传统的“口授笔写”方式产生革命性的变革,近几年得到
较快发展,其输入速度较快,但其要求的条件很苛刻,使用者发音须很标
准,否则识别率低, 影响输入速度。 输入系统受客观环境的影响很大,
不能在大庭广众的场合和噪声嘈杂的环境下使用,因为识别和保密很难解
决。这一方式适合于经过专业训练的、从事大规模输入的专业录入人员。

 扫描输入是利用扫描器对已有的文书资料进行扫描,将扫描结果送入
计算机中,由计算机根据所得图像的轮廓与计算机字库中的汉字点阵进行
匹配,从而转换成相应的汉字(扫描图像例外)。这一方式对于图像输入
是难得的好工具, 对于整理和保全计算机出现之前的文书资料, 尤其是
绝版古版资料也十分有利,近年来其应用范围从传统的图像处理、桌面排
版、印刷出版、字符识别等领域发展到了图文数据库、广告美术设计、多
媒体图文通讯和办公自动化等广泛的领域,扫描输入装置在计算机系统中
有其不可替代的功能,不久将成为继主机、显示器、键盘、鼠标器之后另
一重要硬件。目前只能识别印刷体汉字,不能识别手写汉字,而且对印刷
的质量和纸质的质量要求都很高,否则识别率也低。

 键盘输入的汉语输入的最重要的方式 。 西文键盘已经使用了一百多
年,西方人有使用键盘的习惯。在铅字打印时代,汉字的输入速度的确难
与西文输入速度相提并论,但在电脑时代,汉字输入速度至少可以与之并
驾齐驱。 键盘输入使用的是人的十个手指, 灵活方便,符合人体工程学
原理,绝大多数人愿意接受这一输入方式。键盘输入是利用西文的标准键
盘,是汉字文化与西方文化交流的良好基础,将是汉字走向国际化的重要
桥梁。

发件人:川昊
……………………………………………………………………………………
24.各类输入法的比较(下)

 常用的键盘输入方法可分为拼音类、拼形类、音形结合类。拼音类以
汉语拼音字母作为符号体系,根据汉字的读音特征进行编码,拼音字母和
标准键盘的字母基本一一对应。基于小学汉语拼音教学的基础,汉语拼音
输入是普及面最广的汉字输入法,是计算机内必备的输入法。对于学过汉
语拼音的用户来说,很快就能知道各个汉字的编码,学习起来十分轻松,
特别是对发音较准的北方人较为合适,这类输入法在北方的市场占有率很
大。

  但汉字同音现象很普遍,绝大多数拼音输入法忽略汉语拼音的音调特
征,而汉字只有417个音韵音节,也就是说成千上万个汉字共用417个拼音
编码,重码相当多。通过数字键选择用户所需输入的字词,输入过程中要
盯着屏幕,查找某一特定的字词,速度慢,而且时间长了,也很费眼,导
致效率下降。其次的使用者对某些汉字不会读;也有些人由于方言或其他
原因而读音不准,妨碍了正确输入。

 重码率十分低的拼形类输入法一度曾将拼音输入法逼到山穷水尽的地
步,后来拼音输入法在丰富词汇;重码字词自动排序,高频先见;自动造
词;整句输入方面取得了很大的进展,以上缺陷得到很大程度的克服,加
上学习容易的优越性,使之又争取到了大量的用户。

 拼形类输入法(即常说的形码)将汉字部件(由笔画组成的具有组配
汉字功能的构字单元)依附在字母、数字键位上,根据汉字字形特征对汉
字进行编码。汉字同音现象很普遍,但数万个汉字在字形上却各不相同,
从任何汉字字典、词典上,找不出字形完全相同的汉字,也就是说数万个
汉字无重码!因而以汉字部件拼组汉字的拼形输入法可以保持很低的重码
率。有些专家学者估计:拼形类输入法将是统一各种输入法的一个台阶,
同音的字很多,同义的汉字很少,同形的汉字完全没有,这也许是研制、
研究、设计计算机汉字编码方案并最终走向统一的根据所在。

 拼形类输入法根据码长长短,部件的选取数量从几十到几百不等。这
类输入法输入速度快:一方面不是一笔一划地书写,而是以部件为单位,
进行整体输入,按一键代替书写几划;另一方面,拼组汉字时只取三个或
四个部件,不用将所有的部件取完;同时用键盘输入时是十指联弹,不同
部件的输入一般是不同的手指键入的,两个部件输入之间的间隙可以做到
很短暂。这些方面导致拼形类输入法大大快于手写汉字速度。

  但拼形类输入法的部件多,分布广,记忆起来较难,另外用部件拼组
汉字时须遵循一定的规则:如部件的顺序、成字部件的拼组、不够三个部
件或四部件时的处理原则等等。这些导致这一类输入法须经过较长时间的
学习训练才能熟练掌握。

  因为各地方言广泛地存在,大家对汉字的发音各异,却是“书同文”
的,因而拼形类输入法具有广阔的市场,特别的南方用户的首选类型。如
果能最终统一于某一种拼形类输入法,在部件及部件的分布位置有了统一
规范的标准的条件下,在识字阶段进行拼字知识教育,这种输入法可以被
绝大多数人所接受。

 音形结合类输入法则同时利用汉字的字形特征和读音特征,在编码时
某些方面取汉字的字形特征,某些方面取汉字(部件)的读音特征。这一
类输入法综合了拼形、拼音两类输入法的优点,但也综合了两者的缺点。

 综上所述,键盘类输入法在各种输入法中处于主流位置,而拼形类输
入法则是键盘输入法的主导位置。 

发件人:川昊
……………………………………………………………………………………
25.当前汉语编码方案应着重解决的几个问题(上)

 一、支持国标汉字扩展码

 国家标准总局于一九八○年发布的国家标准信息交换用汉字编码字符
集,即常称的国标码字符集(GB),共有6763个汉字,包括常用汉字有四
千多,次常用汉字约三千左右。现在常用的汉字输入法一般只支持这一字
库量。汉字数量近十万,常用的汉字字典、词典收集的汉字一般在一万二
千左右,字典、词典上大量的汉字特别是人名、地名用字没能包括在国标
码之中,如“蹓跶”这两个字、啰嗦的“啰”字、瞭望的“瞭”字、朱镕
基总理的“镕”字、澳门两岛屿之一的氹仔中的“氹”字,只支持国标码
的输入法满足不了日常输入需要。

 一九九○年中国、日本、韩国共同制定的统一东亚表意文字字符集,
即常称的国标扩展码字符集(GBK),共有20902个汉字,包括现代汉语通
用字表和邮电通信字符符集的字符及其繁体、台湾地区的《通用汉字标准
交换码》所含字符、一些香港用字及日文、朝鲜文用汉字。考虑近一半汉
字有简繁体两种字体形式这一因素,扩展码实际拥有的汉字量为一万三千
左右,常用字、词典收集的汉字差不多全部包含在其中。简体中文WIN 95
及其以后的版本符合GBK标准,目前的各种输入法也应做到支持GBK标准。

 大量的汉字存在于古籍之中, 数量达九万之多, 如从事古文输入输
出, GBK仍不能满足要求,所以用于特殊专业的输入法,还应扩大所能支
持的字库规模。

 二、标点符号及图形符号的输入

 现代汉语所使用的标点符号近三十个,远比西文中的标点符号多。现
代汉语中的图形符号也比较丰富,其中一些是汉语专用的,如‰、¥、℃
等。目前的输入法在这些符号的输入方面考虑的不够,仅靠数字键、符号
键配合 Shift键只能输入其中的少数符号。一些编辑软件如某些中文版的
Word设置标点符号工具条进行弥补,但这些工作本应由输入法来完成。

 三、支持的词汇量

 进行词语输入,是进行计算机键盘输入时,汉语相对于西方语言的一
个极大优势。 这里所说的词语不同于一般意义上的词语, 指现代汉语中
一切经常出现在一起的多个汉字的搭配 ,不包括单字词 ,包括多字词、
词组、熟语及其他常用搭配如“你好”、“请问”等。词语的编码长度与
单个汉字的长度一样,减少了平均每个字的击键次数,大大提高了输入速
度。

 词汇量少难以提高输入速度,无限制地扩大词汇量,设置一个包罗万
象的输入法词汇库也是不现实的。日常词汇及各种专业词汇总数量在百万
以上。若以26个字母键进行编码,所能排列组合成最大的编码数量(我们
称之为编码空间)只有456976个(26的 4次方),若加上数字键,共用36
个键来编码,编码空间也只有 1679616个。在编码空间一定的情况下,输
入法的编码重码率随着输入法的编码个数(即字符数和词语数量之和)的
增加而成几何级数的倍增,重码又是汉字输入,特别是盲打输入的大敌。
我们须综合考虑,确定一个合适的词汇量。

  现代汉语词典(第三版)所收集的词条五万条左右,其中的大部分词
条应收录进来;国家技术监督局是中国中文信息学会汉字编码委员会曾联
合推出过一个总量为四万七千余词条的计算机汉字输入系统使用的通用词
库,根据需要可划为词条数目不同的三个等级修用户选择。各词语的使用
频率有高有低,保持一定的词汇量规模,尽量收集较常用的词语,同时配
合一个用户自已设置定义的用户词库是明智的选择。

发件人:川昊
……………………………………………………………………………………
26.应当重视英语

  对于这个事情,我认为我们应当辩证地看待。因为英语对于我们这么
大的一个发展中国家来说,它的重要性绝对不应被低估。想当年我们中华
泱泱大国,四大发明闻名于世,可后来的发展却如此缓慢,别人只用了几
十年的时间便从封建社会过渡到资本主义社会,而我们整整用了几百年,
究其原因,都只是因为我们已惯于自大,已惯于闭关锁国,自视甚高。到
现在21世纪,还能如此吗?世界经济的全球化,已导致贫富悬殊的差距从
40:1上升到70:1,这个比例难道还不能让我们醒醒吗?本人一直以来都
不喜欢崇洋媚外,然而这和对英语的态度应是截然不同的。

发件人:Homoon
……………………………………………………………………………………
27.就计算机录入而言,汉语比英语好!

 就目前的键盘输入和目前的输入法而言,录入现代汉语的材料,用ABC
输入法,我觉得,每个汉字平均按键1.5-1.7。如“计算机应用”五个字,
我只用了“JSJYY”五个键。而用英语,Application of computor 共22
键。汉语用词组输入法可大大提高录入速度,而英语却不能。另一方面,
汉语的信息含量本来就比英语高,一页中文翻译成英文要二页到三页。第
三,在网上传输中文比英文可传输更多的信息。因此,在计算机信息中使
用中文比英文更有利。我语言,到21世纪的20年代,使用汉字的信息处理
比用英文的效率更高。不过,当语音输入技术成熟后,两者的录入速度就
差不多了。

发件人:张纯伯
……………………………………………………………………………………
28.当前汉语编码方案应着重解决的几个问题(下)

  四、保持较低的重码率

 重码对于输入极为不利,输入时有了重码,须从屏幕上所列示的字、
词中找出所需的字词,用数字键作相应的选择,大大延缓输入速度。电报
码、区位码能完全作到无重码,但这类输入法中汉字的编码不是根据自身
字形或者发音特征进行编码的,而是顺序排列编排的,不能做到“见字知
码”,须记忆各个汉字的编码,其难度太大,无法推广。

  根据汉字的字形、读音特征进行的编码在码长就三、四键的情况下,
很难作到完全无重码,就是勉强做到了,必定会对编码利用许多规则来限
制,且进行大量的特例处理,这也不利于学习,加大使用者的记忆量。合
适的作法是将重码率控制在大家可以忍受的水平内。

 五、保证输入法学习起来不太难,尽量减轻使用者的记忆负担

 掌握一种汉字输入法,总是需要一个学习过程,有的输入法学习一、
两天就能初步掌握,有的需要一、两个星期才能输入文稿。有的输入法在
一段时间没有使用之后使用者不易忘记,有的输入方法则容易忘记。初学
者很自然地会拒绝接受那些难学难记的输入法。保证输入法易学易记,一
方面要尽量减少记忆点,如编码规则、部件分布、声韵母分布、特例处理
等,另一方面要提供便捷的提示学习功能,帮助初学者学习使用。

 以上各个方面统筹兼顾,不能有所偏废。实际进行编码设计时各个方
面相互制衡。字词量大了,重码就大幅度上升。编码码元数(即编码用的
字母、数学键的个数)、编码长度确定后,编码空间(即可组合出最大的
编码数目)也就一定了。如用26个字母键,码长为4 键,最多只能有26的
4 次方,456976个互不重复的编码,只能在这一空间内进行编排;电报码
以10个数字键为码元,码长为 4,编码空间为10000。

  在按规则编码的情况下,因为所选取的汉字特征数目远超过码元数,
多个特征信息共享一个键,如拼形输入法中多个部件在一个键上;拼音输
入法中声韵共键,两、三个韵母共一个键。这样就造成编码空间中大多数
编码用不到,一些编码被用到多次,就产生重码。

  要保持输入法的重码率在大家可以容忍的水平,编码空间应是字词数
目的十几倍到几十倍。编码空间一定的情况下,当所需进行编码的字词量
增加时,重码就会以几何级数倍增,因此要想保持一定的重码率,字词量
上升了,则所需的编码空间就得成倍的上升。

 要保持较低的重码率,另一个途径是将所利用的汉字编码信息特征,
尽可能均衡地分布于各个码元,使各码元的负担大致相等,也就是让每个
码元在字词编码中使用次数大致相等。在这一方面拼形类输入法比拼音类
输入法有更大自由发挥余地,使得拼形类输入法远比拼音类输入法丰富多
彩,其数量大大高于拼音输入法。

  汉字的读音特征就22个声母(包括零声母),35个韵母,汉字的字形
特征就十分丰富,可以分解出六百多个汉字组字部件,这些部件大多可以
处在汉字的各个位置,汉字还有好多种结构。各个汉字部件的能力差异很
大,如部件“口”的组字能力最强、组字频度最高,在设计拼形类输入法
时,需将多个部件放在一个键上,此时应对所有部件的组字频度进行统计
,保持各个键(码元)上的部件组字频度之和大抵相当,组字能力强的部
件与组字能力弱的部件进行搭配,避免产生某些键上的部件都是组字能力
很强的部件,而另一些键的部件却是一些组字能力弱的部件的现象。

 这种搭配应在保证部件按组归类、意义相同、外形相同的部件在一起
或所在的键位相连的前提下进行,以尽量减轻使用者的记忆负担。另外这
种均衡不能过于绝对,位置居中的键是手指头最容易准确触及的地方,从
符合人体的生理特征方面考虑,这些键的负担应略高些。

 数以千计的汉字编码方案的出现,反应了大批仁人志士对解决古老的
汉字与计算机冲突的决心,体现了这一领域百花齐放的活跃学术气氛,但
层出不穷的输入法让人眼花缭乱,历史经验一再证明,一种新技术只有通
过规范化和标准化,才有可能大范围地推广,产生出巨大的社会、经济效
益。例如,五线谱记音体系统一了音乐记载工具,使得音乐构思得以精密
表达;计量单位的标准化推动了工业的发展。

 汉字编码同样需要进行规范,不成熟的输入法以“正统”的计算机汉
字文化的约定俗成的法则,“强迫”人们接受许多不合理的东西,等其普
及开了后,再来纠正就要付出很大的代价,就如同计算机2000年问题。计
算机的汉字输入方式方法“群雄割据”,随着计算机在全国范围内的普遍
应用而悄悄地肢解着汉字,“书同文”的全国统一形式事实上受到威胁。

 鉴于汉字编码,特别是拼形类编码的混乱情况,相关部门正在进行相
应的规范工作,1997年底,国家语言文字工作委员会与新闻出版署联合召
开了新闻发布会,同时发布了《信息处理用 GB13000.1字符集汉字部件规
范》和《现代汉语通用字笔顺规范》,其他如基础部件部件序列规范、部
件的读音规范等一系列规范正在研讨之中。在进行编码设计时,这些规范
应予严格遵循。

发件人:川昊
……………………………………………………………………………………
29.使用英语不是发展经济的必要条件——与Homoon网友商榷

 昨天Homoon网友谈到由于我们“闭关锁国,自视甚高”,由文明古国
沦为落后之邦,“英语对于我们这么大的一个发展中国家来说,它的重要
性绝对不应被低估”。但我认为我们的落后跟不重视英语是没有联系的;
针对一些人对汉语妄自菲薄,我们来讨论分析汉语优越性算不上是自视清
高,强调汉语在我们生活中的重要性算不上是闭关锁国。

 全球一体化经济不是通过由一种语言统一全球来实现的,而是以全方
位地参预国际贸易的方式进行各种资源(如技术、资金、原材料、人力)
的全世界范围内合理配置实现的。重视英语与发达的经济、高度的文明挂
不上钩:印度、菲律宾、马来西亚倒是重视英语,将英语作为官方语言已
有很长历史了,他们的发展水平不比中国强!

 目前我们对英语不是重视不够,而是太过重视了,以致于一些人因为
自己能将英语说得比普通话流利而沾沾自喜。中小学生被送到各种补习班
强化英语,而嘴上哼着“我了你,很受伤”这样莫名其妙的歌词,你不为
汉语感到悲哀?不觉得他们在糟蹋我们的文化吗?面对诸如“李查理”、
“周彼特”之类的名字你是否觉得很时髦?

发件人:川昊
……………………………………………………………………………………
30.音码是汉字输入编码的方向

 音码应是汉字输入编码的方向,因为它简单、易学,或者说不用学。
而重码是汉字输入速度特别是音码汉字输入速度的主要障碍。而解决这一
障碍的最好方法是按词输入或是按句输入,因为重码的词很少,重码的句
子则几乎没有。按词或是按句输入还可以充分利用计算机的大容量、高速
度特性,让计算机根据前后字词联想、判断选择合适的字。

发件人:阿丹
……………………………………………………………………………………
31.没有必要增加新汉字

 本人感觉,我们的汉字已没有必要再增加新的汉字了,因为现在我们
的汉字实际上已能覆盖所有的事、物,纵使偶然有那么一些表达得不是太
好,也已有了不少的新词汇。增加新字不是说那么简单的一个事情,要做
十分大量的工作,才有可能圆满完成这一创举(假如没有人反对我这么说
的话),但仍有可能为大多数人所不接受。

发件人:Homoon
……………………………………………………………………………………
32.关键是输入方式是否自然

 对我而言,汉字输入法的击键次数其实不重要,关键是输入方式是否
自然。人在进行思维的时候很大程度上是以语言为基础的,基于拼音的输
入法能够比较自然地和思维过程结合起来,在用拼音输入法时我心里想的
就是要说的话,只是在选择重码字的时候才会感到思维受到干扰。

 另外,我不同意那位张兄的看法,信息处理不光是录入,而且现在存
储空间也根本不用考虑。到下个世纪录入技术将既不是关键技术也不是瓶
颈,大家应该多关注一些更加有用的技术,如语音识别、合成,自然语言
理解等。

 而且我觉得在计算机上中文信息就是很难处理,想想全世界的技术力
量几乎都集中在英文信息的处理上,在技术上其他非主流语言必定会落后
一些。

发件人:龙楚
……………………………………………………………………………………
33.请大家来作评判

  在前两期中,我着重谈了当前汉语编码方案应着重解决的几个问题。
至于如何解决这些问题,近几年来,我作了些尝试:设计了一种中文输入
法,称作“绿色拼形”,支持 GBK,能输入一些图形符号,词汇有四万四
千余条,GB汉字的编码不超过三键,将重码率控制在一定范围内。所作的
尝试是否成功有效,敬请《热点话题》的读者进行评判。

 请参见绿色拼形网址:http://www.lspx.com,169用户请浏览镜像站
点:http://lspx.zb169.net。 通过网站可以详细了解绿色拼形输入法的
功能特点,免费下载输入法程序,进行汉语输入讨论。

发件人:川昊
……………………………………………………………………………………
34.绿色拼形所作的尝试(上)

 设计一种汉字编码方案是一个系统工程,一方面要能支持汉字国标扩
展码大字库,词汇相对丰富,并能输入现代汉语中常用的非汉字符号,另
一方面要将重码率控制在较低水平之内。这两方面相互矛盾,相互制约,
如何才能使两方面达到一个均衡的水平是一个重大课题。

  绿色拼形的一个重要设计思路是支持国标汉字扩展码 (GBK),词汇
要丰富,保证四万的词汇量,还能输入现代汉语中的所使用的图形符号,
这样总计有六万多编码;第二个思路是编码要简短,编码长度不能超过四
键;第三个思路是得将重码率控制在较低水平。若按一般地设计思路,编
码多,码长短,重码率则将是惊人的。在编码设计过程中,采取以下几项
措施,最终将重码率控制在自认为较为满意的水平之内。

 一、增大编码空间

 编码量多达六万多,势必需要一个更大的编码空间,因而在设计时利
用了包含字母键、数字键及四个符号键共40个键作为码元。其中“,”、
“· ”、“/”三个键用于对标点符号进行编码,用于字词编码的码元有
37个。若码长为3 键,编码空间为 50653(37的 3次方)个,这样就有可
能将国标汉字库6763个汉字(这是一般码长为4 键输入法所能支持的汉字
量)的编码设置为3 键;码长为4 键时,编码空间就为 1874161(37的 4
次方)个,相对于利用26个字母键,码长4键的456976(26的4次方)个空
间来说扩大了 3倍。

 二、对字、词、符号按频度分级处理

 在现代汉语中各个汉字的使用频率相差十分悬殊,“的”、“一”、
“是”等字被频频用到,而很多汉字绝少用到,据统计,在 GBK的 20902
个汉字中,最常用的二十来个字的使用频度能达到百分之二十,而频度最
低的一万四千多个汉字的使用频度总计还不到千分之一。如果进行编码时
对所有的汉字作等同处理,重码现象将十分严重,那些生僻字也没必要同
样地分享的编码空间。

 因此绿色拼形将20903 个汉字(包括“○”字)分成三级,第一级是
高频字,按汉字在现代汉语中的使用频度,选取了频度最高的37个汉字,
包括“的”、“地”、“得”、“着”、“了”、“过”、“你”、
“我”、“他”等等。这37个高频字的合计使用频度超过20%,其编码长
度仅为一键,分布在字母键、数字键及“;”键37个键上。从而保证在输
入过程中20%的汉字仅按一键就行。

 第二级是普通字,由国标汉字库中的6763个汉字剔除除高频字及非成
字部件组成,共有6686个,码长为三键。并从普通字中再选取约一千二百
个使用频率比较高的字作为常用字,常用字同时具有一个两码的简码,即
取其编码的前两位。输入常用字时,输入三键编码也行,输入前两键即简
码也行。高频字、普通字包括国标字库的全部,这些汉字是一般输入法所
能支持的最大汉字量,在一般输入法中这些汉字编码长度多为四键,而在
绿色拼形中码长不超过三键。

 第三级是生僻字,是国标汉字库(GB)没有收集,而 GBK所独有的那
部分汉字,也即一般输入法所输不出来的那部分汉字,共有14111个。

 所有生僻字的使用频度之和不超过千分之一,主要在人名、地名中出
现。生僻字的码长为四键,前两键是取前两位部件所得,属于有理编码,
第三键固定为生僻字专用键--“-”或“ =”键,第四键随机取四排键
(即数字、字母及“;”、“,”、“·”、“ /”共40个键)中的每一
键,属于无理编码。生僻字使用频率很低,不用去记忆其编码,输入前三
码后用“PgDn”及“PgUp”两键翻页查找。

 图形符号的使用频度同生僻字一样低,也作类似处理:将图形符号分
组,每组以两个汉字命名(如序号、部件、俄文等等),这两个汉字的第
一个部件构成符号编码的前两位,编码的第三位固定为符号专用键——
“[”或“]”键,第四键随机取四排键中的每一键。

 四万多的词汇的码长为四键,没有专用键。高频字码长一键,常用字
码长两键, 普通字码长三键, 词汇、图形符号及生僻字的码长虽都是四
键,但图形符号及生僻字各有自己的专用键。这样各类之间不会重码,只
可能存在各类内部之间的重码,如词组与词组之间有重码,普通字与普通
字之间有重码。另外高频字与37个键是一一对应的,不会有重码;常用字
是按前两码精选的,也不在有重码;生僻字、图形符号的第四位编码是无
理编码,只要所在组的生僻字、符号数量不超过80个,也不会有重码。设
计编码时,通过对字、词、符号的分级处理,大大降低了重码率。

 欲了解更具体的情况,请参见绿色拼形网址:http://www.lspx.com
或镜像站点:http://lspx.zb169.net。

发件人:川昊
……………………………………………………………………………………
35.僵化的教育埋葬了学习外语的天赋

 川昊认为“目前我们对英语不是重视不够,而是太过重视了”。事实
是这样吗?看一下周围人们的英语水平,所得出的结论恐怕不是这样吧。

 在现实情况下,如果你能说一口流利的英语,那么你获得高薪的机会
就要远远高于其他人。这样的例子在沿海城市可以说屡见不鲜了。如果你
上网,那么你就可以感觉到整个中文资源是如此的贫乏,而绝大多数都是
英文资源。这也正是阻碍中国互联网发展的主要原因之一。

 所以我现在很后悔,为什么在中学、大学时候不把英语好好地掌握。
数理化学得那么卖力,结果在实际工作中只用到了些皮毛。而英语,真是
学到用时方恨少。

  如果硬要说重视英语过头的话,那么这应该是指英语的教学方法。呆
板、枯燥、教条式的教学方法和大多数思想僵化、水平有限的教师,埋葬
了很多学生外语的天赋。这才是更值得重视的。

发件人:motoboy
……………………………………………………………………………………
36.拼形类输入法(形码)才是汉语编码输入的最终方向

 汉字同音现象很普遍,所有汉字只有 417个音韵音节,也就是说成千
上万个汉字仅有 417个拼音编码,就是加上汉字的读音音调特征,也才两
千多编码,且绝大多数人是拼不准音调的,其重码多得让人无法忍受。词
组输入、整句输入确实能降低重码,但拼音相同的词也是很多的,拼音类
输入法的词汇重码还是太多,特别是双拼、简拼输入法;全拼的词汇重码
稍少些,但其编码长度过长。

  拼音输入法中并不是所有的汉字都能以词组方式输入的 ,生僻字 、
次常用字只能以单个字的形式输入,好多时候那些常用字也是以单个字形
式,而不是以多字词形式出现的,可见词汇输入也不能完全解决问题。

 方言在我国广泛地存在 ,大多数人的汉字发音不准 ,无法用拼音输
入。就是拼音较为熟练的人,也常碰到不会读的汉字。

 大家对汉字的发音各异,却是“书同文”的。汉字同音现象很普遍,
但数万个汉字在字形上却各不相同,从任何汉字字典、词典上,找不出字
形完全相同的汉字,也就是说数万个汉字无重码!因而用汉字部件拼组汉
字的拼形输入法可以保持很低的重码率。

 等到将汉语编码输入方案统一到一、两种成熟的拼形类输入方法时,
也就是拼形类输入法定型时,将汉字拆分知识像汉字拼音一样贯彻到识字
教育中,拼形输入法也会像拼音输入法一样好学。

 我接触到一些人,拼音掌握得很好,原先也是用拼音输入,因速度慢
现改用拼形了。他们甚至称拼音输入法是一种“甜蜜公害”,初学时让你
尝到好学好记的甜头,但却限制你的输入速度。

 汉语编码输入很快将形成以拼形为主,拼音为辅的格局。

发件人:川昊
……………………………………………………………………………………
37.语言障碍绕不过去

 确实如motoboy 所言,语言障碍是阻碍中国互联网发展的主要原因之
一,网上中文资源非常贫乏。但我们不可能绕过语言障碍:在我国广泛地
普及计算机、互联网,用户将数以亿计,而不会仅是少数知识分子、少数
计算机业内人士专用,不可能让数以亿计的用户都掌握相当基础的英语,
而后驾轻就熟地使用计算机,进行网上冲浪。

 正确的态度应是清除障碍,着力研究中文的输入输出问题,让大家熟
练自如地使用自己的母语来操作计算机、来上网。何况在计算机信息处理
方面,汉语有如此大的优越性。在与计算机结合方面,我们完全有信心使
汉语比其他语言得做得更好。

 目前上网人数少,网上中文资源匮乏,原因是多方面的,除语言障碍
外还有上网费用、上网速度、硬件价格等因素。我们应看到上述各种制约
因素在一定程度上正在得到缓解,离最终解决为期不太遥远。我们有理由
相信:计算机的普及、网络的发展在中国不久将迎来全面辉煌。

发件人:川昊
……………………………………………………………………………………
38.使用英语不是发展经济的必要条件——与Homoon网友商榷

 语言竟然是发展经济的必要条件,真是太“高明”了。远的象德国等
不说,就拿日本来说吧,出过国的人都知道,最怕日本人说英文,可日本
的经济不是一样很发达吗?

 再说,随着科技的发展,汉语反而有很大的优越性。英语对新生事物
多半都才用创词,科学是不停地发展的,那么总有一天,使用英语的国家
会发现,举国上下要找能读出科学文章的人都不容易。我们随便来举个例
子,如爆破(BLOW UP)、爆破弹(BLASTING CARTRIDGE)、爆破筒
(BANGALOREA),所以有美国学者说,如果解决了文字输入的问题,至少
科学界会使用中文做为科学语言。

发件人:贫乐
……………………………………………………………………………………
39.汉字字库对特殊工作来说还很不够

 不知Homoon兄你是干什么的,本人对你的观点实在无法苟同。现在汉
字的字库对一般人来说已经足够,但是一些特殊工作就不行了。例如对于
从事中国历史及古文化的研究,佛道教典籍的录入与研究,中国古代文献
的录入等等等等。

 不说别的,我就碰到过几次这种情况。在计算机上打过几篇关于中国
服饰史方面的论文,有十几个字在字库中找不到,最后只好用造字程序硬
造,实在是不胜其繁。我也参加过佛典的录入工作,找不到的字就更是多
了。所以字库的充实实在是势在必行。

发件人:shi zhao
……………………………………………………………………………………
40.绿色拼形所作的尝试(下)

    三、精选汉字部件

 汉字组字部件(有的输入法称为字根)可以分解出六百多个,各个汉
字部件的能力差异很大,如部件“口”的组字能力最强、组字频度最高,
部件“巜”的组字能力就很弱。部件选取多了,使用者记忆负担过重,组
字频度低的部件可以由几个笔画来代替,但部件选取太少,汉字的字形特
征信息不能充分地分散开,导致重码率上升。

   绿色拼形根据部件的组字频度,共选取了 198个组字频度高的部件,
并严格遵循《信息处理用GB13000.1 字符集汉字部件规范》,即所有非成
字部件及大部分成字部件取自该规范的基础部件表,其余成字部件由该规
范的基础部件组合而成的。

 四、将汉字部件均衡地分布在37个键上

 绿色拼形以 198个部件作为两万多汉字的拼组元件,部件数大大高于
码元(键位)数,因此就须将多个部件放置在同一个键上,部件的组字能
力各异,同一键上的部件可以进行频度高低搭配,使得每一键上各部件的
组字频度之和大抵相当,汉字的字形特征要素在键位上充分地分散开,以
保证较低的重码率。

 要保证部件的均衡分布,绿色拼形没法采取“音托”(部件位于部件
名称第一个字声母键上,如部件“宀”根据宝盖儿中“宝”的声母,位于
B键上)形式。记忆198个部件在37个键上的分布是一个不小的负担,因此
进行部件分布时,遵循了部件按组归类,意义相同、外形相同的部件在一
起或所在的键位相连的原则 ,这样记住了一个部件 ,就能记住一大串部
件。同时设计了键位图,键位图程序采用了上浮技术,可以在屏幕上随时
显示部件、高频字在键位上的分布位置,便于初学者对照输入。

 欲了解更具体的情况,请参见绿色拼形网址:http://www.lspx.com
或镜像站点:http://lspx.zb169.net。

发件人:川昊
……………………………………………………………………………………
41.汉字输入与爱国无关

 川昊与Homoon网友的高见多多少少都有点离题。汉语输入确实存在先
天不足,只能后天补救,仁者拿出见仁之技,智者拿出见智之着,一时间
输入法如过江之鲫。前几天有几篇关于文字与输入法的技术性文章,很有
味道,将语言的技术差异说了个明白,汉语精练,信息含量大,但编码确
实困难,不好学,不好用。其实不好学,也是相对地,如果从娃娃抓起,
五笔字型和1234同时起步,也就没有了难学的问题。

 本人擅长五笔,有准专业水平,口诀几乎一个都记不起了,字都在指
尖上。从规范性,重码少,词组等性能看,根据使用比较,效果来是不错
的。中国是个方言繁杂的国家,音码有局限性,笔者是南方人中普通话算
好的,也经常为发音的准确性犯迷糊,同样音形码也受局限。当然不管黑
猫、白猫,抓老鼠都是好猫,各人有各人的爱好、特长,我就见过几个兄
弟用新全拼打得快如闪电,不过还是没我的五笔形快,这里面还是有个先
天因素在里面。

 至于,用汉语是不是爱国的表现,虽说在这里讨论离题,但我还是有
话要说。本人酷爱汉语,并有强烈兴趣钻研汉文学,不过英语在很多场合
是我的工作语言。英语的地位是历史造成的,先是英国的日不落,后是美
国的唯一超级大国,历史都选择了英语,尽管从语言学的角度它并不算优
秀。只要谈经济必然要分析成本,早有精算师统计了全世界每年因语言转
换而导致的惊人费用。笔者在工作还发现,不同语言翻译的过程中很难准
确表现带有情感的含义,而这对于商务活动非常致命。

 需要一提的是,并非只有中国面临英语的挤压,德国几家大公司,如
西门子,已将英语列为公司官方工作语言。我与友交流用英语,与荷兰朋
友交流也用英语,并非只和英语埂跻的朋友用英语交流,因为这是大家唯
一的共同语言。因此,英语越流馈踅好,强化得越强越好,否则你怎么和
世界保持平等。当然,站在中埂跛的立场上,英语是非母语,读中文无论
如何要比英文来得遛,因此不到万不得含我尽踉不会去捧英文大部头。

 另外,英语重要还有一个原因。记得在上学时作了个统计,全世界科
学文献有70%以上是以英文作为载体的,当然,其应用面相对狭窄,但
重要性却不小,因为大家都知道知识经济是我们的未来。

 我很反对把英语和美帝国主义的文化侵略等同,因为语言是一种联系
纽带,是一种工具,如果你不是研究英、美文学,那么你离英、美最表层
的文化都还远得很。迪斯尼、麦当劳绝对没有借助英语的一点力量,相反
它是用中文包装后才大行其道的。即便是“李查理”、“周彼特”,在我
看来也比“李军”、“周斌”这样的重名要好,我就有自己的英文名,无
非为了交流方便。

 在前段时期索易《热门话题》暂停前,曾有篇文章说,因为对英、美
文化缺乏真正的了解,才害怕它,仇恨它。我基本同意这样的观点,如果
你兼通中西,那么看到的会是彼此的优点、缺点,那么更可能采取的手段
是取长补短。

 我的建议是,如果诸位有兴趣,有精力,有时间,学个几门外语,同
时苦练国学内功,那么我相信您更能融入全球一体化经济,而不是坐着奢
谈什么中文的中心地位。毕竟劣势文化才怕侵略,强势文化只想侵略。

发件人:胡华进
……………………………………………………………………………………
42.用部首输入汉字就很自然

 利用键盘输入汉字总是根据字的音或形进行编码,拼音输入十分自然
但重码率太高,且对拼音不准的南方人而言就不那么自然了。五笔输入法
几乎没有重码,但它的许多字根及字根的分类很难记忆,对于非专业从事
汉字输入的人员来说学习和使用它是很困难的。

 就汉字的形而言,人们最熟悉的是笔划和部首。

 由于汉字的笔划一般分为“点,横,竖,撇,捺,横折,竖折”等七
类,直接用它编码必然是重码率特高。

 汉字的部首有三百个左右,而且极大多数部首都有一定的含义,我们
可以主要根据部首的含义进行分类,例如将“食,马,牛,鱼,羊,豕”
归入“美食”类,将“人,子,父,母,女,儿”归入“人”类,将
“衣,丝,麻,皮,革,尺,寸” 归入 “衣服”类,将“米,豆,麦,
瓜,谷,田,斗,禾,耒”归入 “主食” 类。将近三百个部首分为廿六
类,分别给以确定的代码。

 汉字可以按笔划顺序拆分为由若干部首组成。例如“特”由“牛”,
“土”和“寸组成,“爷”由“父”和“耳”组成,“据”由“手”,
“尸”,“十”和“口”组成。

 由于部首是人们已经非常熟悉的知识,将汉字按笔划顺序拆分为部首
就不是一件困难的事了。这些部首又是按其含义进行分类的,记住这些部
首的代码也就不是十分困难的事情了。一般情况下,经过半天时间的学习
就能掌握编码规则,再用半天时间进行练习后就能使用了。

 笔者为有兴趣的朋友免费提供这种编码(UCDOS或WINDOWS95下)。

 请mailto:lujohn@21cn.com。

 顺便提一下,欲提高汉字输入速度,必然要用词组输入方法。以现代
汉语词典为例,词组约六万个。无论什么汉字输入方法在六万个词组面前
都有很高的重码率。

发件人:陆建南
……………………………………………………………………………………
43.声音输入法

 这段时间听川昊等几位先生在索易高谈阔论汉语计算机输入,便忍不
住有说上几句的冲动。

 我是学中文的,现在一家杂志做编辑工作。文字是我的衣食父母,在
它面前,我总是不由自主地胁肩谄媚。今年春节以前,我一直用五笔。因
为五笔不能处理GBK大字符集,我便一咬牙做了个大五笔,能够比较方便
地处理GBK大字符集了。去年的某一天,我忽然突发奇想:能不能编一个
像形码一样高速流畅、像音码一样易学难忘的输入法呢?

 我虽然知道国内正是万“码”战犹酣,但我对自己做一个新的输入法
所需的精力、时间、它的前景等问题并不很清楚。记得钱钟书先生80年代
访日时曾作过一场题为《诗可以怨》的演讲。演讲中,钱先生提到这样一
则故事:据说有那么一个穷乡僻壤的土包子,一天在路上走,忽然下起小
雨来,他拿一根棒撑起一块布,遮住头顶。后来他听说城里有个专利局,
便兴冲冲地连棍带布跑去申请专利。专利局的人听了哈哈大笑,拿出一把
雨伞来,让他看个仔细。

 现在想来,我当时就像那个土包子,对许多事情一无所知。不过,无
知往往正是勇气的源泉。当时,我的脑子里只有一个模糊的关于声音输入
法的影子。然而就是凭着这股源于无知的勇气,我终于完成了这个自认为
比较成功的声音输入法。

 从内容或者说从本质上讲,声音输入法和川昊先生的绿色拼形一样,
是一种纯粹的拼形码,具有形码高速流畅的特点。有试用过的网友说,声
音输入法脱胎于五笔。我想,这大概与我曾经达到专业入门级的五笔打字
水平以及做大五笔的经历有关吧。

 从形式上看,声音输入法又是一种纯粹的音码,其中所有的拼形成分
(笔划和部件)都有一个读音,也就是说,一个字或者词,其代码是完全
由构字成分——笔划和部件——的读音决定的,因此说,声音输入法又是
纯粹的音码。

 如果上帝容许一个卑微的普通人一辈子可以狂一次的话,我想说,我
做了一个彻底地贯彻以音赋形的原则、把形码与音码完美地结合在一起的
输入法。

 声音输入法号称“三分钟学会,一辈子不忘”,这虽是按比例仿造有
些输入法的法螺,但“像五笔一样高速流畅,像拼音一样易学难忘”却是
所言不虚。本人的五笔打字速度是80-90字,因为声音输入法,我现在放
弃用五笔打字改用声音输入法了。一来因为声音输入法是自己的孩子的缘
故,二来,用声音输入法并不比五笔慢。目前,我用声音输入法的打字速
度跟用五笔差不多,一分钟八九十字。

 声音输入法今年5月底才放到我的主页上。有兴趣的网友可以去下载。
 http://member.zz.ha.cn/grwy/wordhouse/目前,声音输入法还不支持
GBK 大字符集,但放进了镕、瞭等字,大概到今年底,声音输入法会全面
支持 GBK大字符集。

发件人:oldword
……………………………………………………………………………………
44.我建议改革中文字

 我不懂艺术,因此不能从美学的角度讨论中文字,但是我知道中文难
学,中国字难写。因此我建议国家化一些力气规范中文字的写法,让他们
有规律可循,我可以通过电话告诉你如何写一个你从未见过的汉字而没有
必要写给你看(象英文一样,告诉你拼写的字母)。即偏旁部首及其位置
要规范化,最好发音也能渐渐地达到看字会读的地步(我对这一点没有信
心),让那些文盲门也可轻易地识字。这样,计算机录入的拼音和字型可
以合而为一了

发件人:dragon ……………………………………………………………………………………
45.论英语的重要性

 现代社会无疑是一个需要充分继承发展他人智慧的社会。那么,当前
中国的地位呢?无疑很低很低。国际上大多数的信息、文献等等都是英文
的,说中文的人虽然不少,但中国在当今国际社会中所占的资源却很少。
当今的主要资本是掌握在讲英文的人手中,我们要快速发展,就必然要同
这些人打交道!而如今,我们每年要花费很多资金用于翻译,且翻译质量
不高,这不是限制中国发展的一个因素吗?

 诚然,一个国家的发展和许多因素有关,语言不应该是一个必须的因
素,但作为一个国际化的人,学会英语绝对会对中国的发展有利。中文有
它的优势,但也有它的劣势。英语这一类拼音文化,扫除文盲比中文要容
易得多。我们当然可以创造出一种更好的语言,我们也可以大量地翻译各
国文字,甚至花费一些时间和金钱来制造具有广泛适用性的翻译机,但这
些的花费无疑巨大,不如加快普及英语来得容易,而且此费用多有个人分
担。

发件人:dragon
----------------------------------------------------------------

|||| 索易信息 ||||

* 索易热门话题投稿须知

1、汉字和标点请以全角书写,英文和数字以半角书写,每行32个全角汉
字(65个半角字符)断行;或者全文不断行。

2、文章5行以上请分段落,言简意赅。

3、请在文末注明署名和邮件地址。

* 索易热门话题专题讨论区

体坛纵横、信息时代、地球村、中国大地、
经济生活、看到就说、百姓茶坊、文化生活、教育、
民主与法制、史海钩沉、读者沙龙、三味书屋、科技视野……

* 如果你觉得“索易热门话题”好的话,请推荐给你的朋友;有需要改进的
地方,请来信告之:mailto:sh@soim.com?subject=discu_advice
==================================================================
版权所有:上海索信计算机网络有限公司
网站转载索易电子刊物内容,须注明索易网址(www.soim.com)及相关刊物的
FTP链接,同时来信告之转载的网址。传统媒体转载须事先与索易联系。
电话:8621-62272789 传真:62272167 mailto:raychen@soim.com
—————————————————————————————————
订阅、退订、更改、暂停:http://www.soim.com/
或: mailto:list@soim.com?subject=help
订阅索易的常见问题 http://www.soim.com/cjwt.htm
==================================================================


 返回坐而论道