汉语与计算机的艰难结合过程

 

 在本世纪初,胡适第一次接触到英文打字机时,面对英文通过这一简单的机械就能打印出整洁规范的版面,且其速度大大快于手写这一事实,悲叹在这一方面汉语落后英文一百年。 英文仅仅只靠二十六个字母加上一些少量符号就能完全表达,因为其简约性、规范性,此时英文的巨大优越性不仅表现在打字机简单的打印方面,在制版印刷、信号传输、词语检索等方面英语存在着天然的优越性。 对照看一下汉语:利用简单的装置打印汉字是不可能的;印刷厂制版时,则需要利用几千个键的汉字大键盘,每输入一个汉字都需要从这几千个键中去查找对应的一个键,其速度可想而知,就是再熟练的工人也难以应付大量的制版工作;正因为汉字变成铅字如此之难,谁的文章变成了铅字,则是足以令人自豪的事情。

 为了能以少量的符号传输电报,我们只好为每一个汉字设计了一个四位数的代码,发文方须将每个汉字翻译成数字代码而后传送,收文方接收到代码后再翻译成汉字,速度慢,易出错;汉字的排序检索问题也深深地困扰着我们,以偏旁部首,以起始笔画,以笔划数目,以四角号码数,或是以这几类的综合特征来排序均难尽人意,现代汉语拼音方案出现后,根据汉字的拼音特征,利用西文字母顺序才较为满意地解决汉字排序检索问题。

 正是考虑到古老汉字的这种繁杂、不规范性所导致的汉字难以传输、打印,我国下决心对汉字进行大幅度的改革,先是进行了汉字的第一次简化。这次简化方案一方面简化了一些汉字的笔画,使这些字的笔画数减少一半,另一方面归并了一些异体字。第一次简化对于汉语的规范及普及教育功不可没。

 与此同时国家大力推广普通话,实行汉语拼音方案。汉字造字时通过形声的声部表达字音,但经过长时间的流传后,汉字的发音发生了很大的改变,再靠"秀才认字认半边儿"的方式来读汉字,只能产生很多笑话。 到了公元前两百多年前,汉语开始用反切法来标注汉字的读音,即用一个常用汉字的声母及另一常用汉字的韵母来标注某一汉字的读音,如"塑,桑故切",但作为读音标准的"桑"字的声母,"故"字的韵母是什么,只能靠先生口授,还是没有符号来标记。 1918年由北洋政府公布了注音符号系统,符号形式是根据篆书改写而成(如ㄅ、ㄝ、ㄎ、ㄞ等),使得每一个汉字的读音有了一个确切统一的标注方法。 1958年全国人大批准了国家语言文字改革委员会(现国家语言文字工作委员会)所拟订的汉语拼音方案,改用国际通用的拉丁字母系统来拼写和标注汉字读音。汉语拼音方案的施行,大大地有利于帮助识字,统一读音,推广普通话,同时有利于国际交流。

 一代伟人被汉字规范的大好形势所鼓舞,宣布汉语最终要走拼音化的道路,其设想是通过几次大规模的汉字简化后过渡到使用拼音文字。正是在这一思想的指导下,我国于七十年代后期实施了第二次汉字简化方案,这一方案,缺乏合理的简化依据,一些汉字已简化得如同日语,不再横平竖直,如"事"字简化得跟" 3"差不多。 另外这次简化方案是在港台及海外华人仍在使用繁体汉字的情况下进行的,也造成了海内外汉语交流的隔阂。很快这一方案被废止了。与此同时,专家学者大声疾呼:汉字是音、形、义高度统一的文字,结构精炼,因为字形丰富,阅读速度快,拼音化后同音字词太多,容易产生歧义。汉语拼音化的进程总算被中止住了。

 七十年代,计算机开始进入中国。作为先进的文化载体,快速的语言信息处理工具,计算机在利用西方语言方面取得了巨大的成功。在计算机出现以前,西文打字机键盘早已定型,计算机很自然地利用了键盘这一录入工具。 此时巨大的难题摆在中国人的面前,也引起全世界科技领域,特别是信息处理专家的极大兴趣和强烈关注:世界上唯一仍在通用,并且使用人口最多的最古老的文字--汉字,和二十世纪的最重要的发明--计算机产生激烈的碰撞,古老与现代的碰撞引起必然的轰动效应,轰动效应首先发生在冲突的最前沿:汉字如何进入计算机,如何在计算机系统内为每一个汉字设置点阵字库,使得汉字能显示在屏幕上,或打印在纸质材料上?如何才能将汉字能够输入到计算机内?

 为汉字设置点阵字库,倒不是难事,只是西文就几十个成千上万,字库的规模要大好多倍。解决输入问题就太难了,键盘问题重新处于焦点位置上了。排版机的使用者只是极少数的排版工人,而计算机键盘的用户则是数以亿计的计算机操作者,因此输入设施不能过于复杂,过于昂贵,输入方法也应该容易掌握。此时设置整字输入的汉字大键盘显然不合时宜。 契机也因此而产生,计算机明显不同于打字机,打字机只能通过机械传动,机械地击打出一个个字符,一个键只能打印一个字符,配备上挡辅助键后,一个键也只能击打出两个字符;而计算机则具有运算功能,可以进行编码转换,计算机键盘可以作为输入指令的工具,计算机通过键盘接收到编码后,自动翻译转换,寻求与编码匹配的点阵字库,并将相应的汉字显示在屏幕上。 这样计算机键盘上的每一个键就是一个编码码元,计算机键盘就不再是打字机键盘的简单移植,而如同电报发报机的键盘了。很快,利用编码的小键盘就淘汰了打字机式的汉字大键盘。现在的问题是如何设计一套规范合理的编码,编码方案要做到能让使用者利用较为简单的编码规则,对于每一个汉字能很快地知道其编码,而不用去背每个汉字的编码。四位数的电报码编码无规律可言,所需要的记忆量太大,不可能被广泛地采用。

 各种汉字编码方案如雨后春笋般地涌现出来,在大陆,1978年支秉彝完成了"见字识码"的小键盘输入汉字的设计方案,从而掀起了"编码潮"的序幕,越来越多的人卷入到汉语与计算机大碰撞的旋涡之中,形成了一个规模巨大的群众性科研活动。 经过五年的不懈研究,王永民于1983年发明了"五笔字型"输入法,"五笔字型"是大陆第一个成熟的编码方案,很快就占领了大部分市场,以致于在八十年代后期、九十年代初期,许多人的头脑中有了这样的一个观念:学习计算机就是学习五笔字型,会不会电脑就是会不会五笔的事。 利用汉字的字音特特征,也是编码的一个重要努力方向,早期音码因为其重码率太高,曾被形码逼到山穷水尽的地步,后来因为其丰富的词汇量、完善的智能功能、整句输入功能,再加上其利用了人们的拼音知识基础,学习容易,到了九十年代音码又被许多人所采用。  在港台及海外,以"王安三角"为发端,陆续涌现出"仓颉"、"呒虾米"、"行列"、"唯物"等一大批繁体汉字输入法。

 经过二十多年的努力,汉字进入计算机已完全不成问题。几个月前关于繁体字的讨论甚为激烈,一些网友主张在大陆废除简体字,恢复使用繁体字,其理由之一是利用计算机输入繁体字不比输入简体字困难。现在我们需要做的是如何规范出最科学的编码体系,使之成为全能化、固定化和国际化的通用文字处理系统,如同西文确定键盘字母排列方案一样。

返回