多种汉字输入法编码方案的比较

及其相应教学方法的探讨

苏州卫生学校         王   雁

    一、引言

    汉字是世界上最悠久的文字之一,它记载着我国五千年光辉灿烂的文明史,也是世界上公认的重要的文化交流工具之一。汉字是从象形文字演变而来的,它是一种表意文字,是形、音、义的统一体,它形体复杂,数目繁多。正因为如此,当在美国诞生的电子计算机进入我国时,汉字信息处理便成为首要问题,而这无疑是一项十分艰巨的工作,堪称一项综合工程。近二、三十年来,国内外的计算机工作者经过艰苦的努力,对汉字输入方法进行了大量的探索和实践,迄今为止,已产生了近千种汉字输入法。总结这些众多的汉字输入方案,大致可分为以下两类:

    1自然输入

      指汉字的文字识别和语音识别,这是汉字输入的最终和最理想的形式。但是,虽然现在已有一些文字识别系统进入了实用阶段,比如清华文通公司的TH-OCR系统、中国科学院自动化所汉王科技公司的汉王笔输入系统等,以及最近汉王公司开发成功的我国市场上第一个连续非特定人语音识别系统,但这些技术还远不够完善,要正真达到普及还尚需时日。

    2编码输入

    编码输入是目前以及将来一段较长时间内普遍采用的汉字输入方法,它是将汉字编成代码,使之符号化,以便通过适当的方法将汉字输入计算机。它又可分为以下四种类型:

    ①数字类:把汉字作为一个整体,采用一定的规则排定汉字的先后次序,用序号作为汉字的编码。例如,国标区位码、电报码等。这类编码输入方便,没有重码,可达到很高的输入效率,但由于编码记忆量很大,因而仅适合专职操作员使用,对于普遍用户来说是无法接受的。

    ②音码类:根据汉字的读音,把汉语拼音的声母韵母与英文字母相联系,用英文字母作为汉字的编码。例如,全拼双音、双拼双音等。这类编码非常容易学习,尤其适合于非专职操作员,但由于汉字的同音字极多,因而这类编码的重码较多,输入效率难以提高。

    ③形码类:根据汉字是象形文字的特点,把汉字拆分成一些相对不变的基本结构,然后利用英文字母或数字对这些基本结构进行编码。例如,五笔字型、纵横码、表形码。这类编码重码率较低,输入效率较高,但编码规则通常较多,必须通过一段时间的训练才能掌握。

    ④音形类:根据汉字的音和形两个信息编码。例如,快速码、自然码等。与形码或音码比较,这类编码的规则简单,重码少,但掌握这类编码需要拼音和字形两个方面的知识。

    从另一方面来看,随着计算机的越来越普及,操作计算机的人群越来越庞大,其层次也越来越复杂,人们总是希望汉字输入法既容易掌握又能达到较高的输入效率。从这个意义上来说,计算机对用户的要求应该是越低越好。但由于汉字本身的复杂性,比如笔划多、结构复杂、规律性不强,同音字多,故目前为止还没有哪一种输入法能真正满足人们的要求。事实也正是如此,在这近千种汉字输入法中,真正能够得以流行、普及的不过廖廖数十种,而其中较为优秀的要数智能ABC、五笔字型、纵横码等。本文对这三种汉字输入法的编码方案作一个比较,对相应的教学方法作一点探讨。

    二、不同编码方案的比较

    1智能ABC输入法

    智能ABC输入法是由中文Windows 95提供的,它既可以作为音码来使用,也可以作为音形码来使用。智能ABC输入法的编码规则极为简单。作为纯音码使用时,只需输入相应汉字的全拼拼音即可。同时,为了减少击键次数,提高输入效率,还可以用简拼和混拼的方法,这也给读不准汉语拼音的操作者提供了方便。例如:

  

汉字   杂志   日常   主任   小姐
全拼   zazhi   richang   zhuren   xiaojie
简拼   zz   rc   zr   xj
混拼   zaz   ric   zren   xjie

    在作为音形码使用时,可在拼音编码后加上笔形码进一步对汉字进行识别,这可以减少纯音码输入时的重码。笔形码是按照汉字基本的笔画形状来划分的,共分横、竖、撇、捺、折、弯、叉、方八类。例如: 

汉字 识别 葵花
音形混合码  shb8 shi45 j31 W7 k72h

    智能ABC输入法还具有非常丰富的词组功能。它不仅提供很多通用词组,还提供自动记忆词组、手工造词两种方法以方便用户自己定义新的词组。

    根据以上编码方案,可以说智能ABC输入法是音码类和音形码输入法中效率较高的一种汉字输入法。它的优点是简单易学,灵活方便,但与一些形码类输入法相比,其输入效率仍很有限。

    2五笔字型输入法

    五笔字型输入法是一种形码类的汉字输入法。它将汉字分成三个层次:笔画、字根、单字。笔画是根据运笔方向来分类的,共分横、竖、撇、捺、折五类,字根是由笔画构成的用于构成汉字的一种相对不变的结构,是五笔字型优选出来的组字频率高和实用频率高的构字成份,共有130种。字根被科学地分为五个区,每区五个位,分别对应于25个英文字母键。在输入汉字时,先将汉字根据五笔字型输入法拆分汉字的原则将汉字拆分成字根,再输入相应的英文字母,对于非常用字有时还需加打一个末笔字型交叉识别码。另外,它还提供了简码输入法和词组输入法来进一步提高输入效率。例如:

  

汉字 问题 计算机
全码 ujfi
简码 q tu tjt
词汇码 ukig ytsm

    五笔字型输入法的优点是编码长度短,简单平均码长为2.6键,最长不超过4键;重码少, 重码率不超过万分之二等。但记忆量较大,特别是字根与英文字母的对应关系较难记忆,虽有五首字根助记词,但仍比较难记,且仍有不少例外的情况。还有拆字的原则也容易产生歧义,较难掌握。

    3纵横输入法

    纵横输入法也是一种形码类的汉字输入法。它用“0”-“9”十个数字作为码元,同时也作为笔形、部首及整个汉字的编码。它定义了十种笔形,并归纳成一首口诀。它按照字形和字义对汉字进行分类,将汉字分为主部首汉字、副部首汉字、无部首汉字三类,然后分别编码。主部首共精选了55个,分别对应1-2位代码,有口诀帮助记忆 。副部首只取一码,无需记忆。汉字被取走主部首或副部首后称为字身,对于字身和无部首 汉字,按照其字形共分七种情况,分别按笔形编码,同时还需要遵循相应的补码规则。为了进一步提高输入效率,纵横输入法还提供了词组输入、简码输入和缩码输入等方法。例如:

  

汉字 问题 计算机
全码 0370 378607 1211 865 
简码   5 37 36
词汇码 36610 378849

    纵横输入法的确是一种非常优秀的汉字输入法,它的编码规则简单明了,易学易用;最大码长为6位;重码率很低;可用小键盘单手操作;它的词汇非常丰富,包容了我们生活中绝大多数的词汇;它的自定义功能使得各行业用户可方便地定义各自的常用词;它的模糊输入法可以有效地为初学者提供帮助。学习的难点在于其补码规则较多。

    4三种汉字编码方的比较

    智能ABC输入法是基于汉字的读音来编码的,即凭音识码。它直接利用英文字母来表达汉语拼音,非常直观简单。该方案还进一步提供简拼、混拼等输入方法,减少了码长,在一定程度上也降低了对操作者读音准确性的要求,但会增加重码。而另一方面,它提供了可附加的笔形码来减少重码,但又会增加码长。它的词组功能较强,但比较而言,其单字的重码率还是很高的,这就决定了其输入效率难以提高到一个较高的水平。所以智能ABC输入法比较适合于有一定拼音基础且较少需要输入汉字的操作者。

    五笔字型输入法和纵横输入法同是形码类的汉字输入法,都是基于汉字的字形结构来编码的,即见字识码。但两者对于汉字结构的认识却大不相同,其编码思想各有特色。现从以下几个方面进行比较:

  ①从需要操作者记忆的信息量来看。五笔字型输入法要求记忆五种笔画代号、三种字型代号、25个键名汉字、130种字根的区位号,并要掌握好拆分汉字的原则以及键名汉字、成字字根、单字、词组、简码等相应的编码规则。纵横输入法要求记忆十种笔形代码、55个主部首的代码、字身的7种取码规则、字身补码的一般规则和几种特殊情况,并要掌握好词汇码、简码、缩码的编码规则。由此看来,后者的信息量相对较小,其编码规则较为简明,所以操作者的入门时间会相对较短。

    ②从组成输入码的码元来看。五笔字型输入码的码元是25个英文字母;而纵横输入码的码元是10个数字。因为不管是主键盘还是小键盘,数字键都很集中,故后者更有利于提高击键速度。

    ③从取码成份的结构大小来看,五笔字型输入码的取码单位是字根,而绝大多数的字根是偏旁部首,相对较大;纵横输入码则先取走主部首或副部首(如果有的话),余下的字身其实也相对简化,而对字身取码时,一般只取其四个角上的笔形代码,取码单位相对较小, 往往不涉及汉字的全部,这一点对于繁难字的输入特别有利。从这一点来看,纵横输入法的取码较为简化,更有利于提高取码速度;而五笔字型输入法则对于操作者学习汉字的详细结构更有帮助。下表是一些字例(括号内的编码为主部首或副部首的编码):

  

    汉字
五笔字形输入码 keqg kkc uje  ghq qtny rvyr
  纵横输入码 (00)622  (17)66 (3)000 (4)4 00 5505

          ④从词组功能来看,五笔字型输入法通常提供5000余条词汇;而纵横输入法的词汇量更大,有4万余条,它包容了我们生活中绝大多数的词汇,并具有灵活方便的自定义词组功能。

    三、相应教学方法的探讨

    根据以上对这三种不同的汉字编码方案所作的分析,在实施教学时应采取相应的教学方法。

    首先,究竟应选择哪一种汉字输入法作为教学内容?在我看来,汉字输入是计算机操作人员必备的基本技能,一个合格的操作者应该达到一定的汉字输入水平,而对于在校的中、小学生来说,这是他们将来从业需要。所以,对他们来说,学会一种优秀的形码类汉字输入法是必要的,同时,就他们本身的素质也是应该能够学会的。但对于初学汉字输入的人来说,一开始就学习形码类汉字输入法的编码规则,可能会打击他们的学习积极性,所以,我还是从简单易学的音码类输入法入手,比如智能ABC输入法。这样做的目的是为了使学生尽快体会到汉字输入的乐趣,又激发了学生要求进一步提高输入效率的愿望,调动了学生下一步学习形码类输入法的主动性和能动性,同时也可作为一种补充。几年以前,在形码类的输入法中我一直偏好五笔字型输入法,但自从接触了纵横输入法,我的想法很快改变了。我现在的教学内容是:智能ABC输入法+纵横输入法。下面就这三种输入法的教学方法作一点探讨。

  1智能ABC输入法

    课时定为2学时,教学目标是学会正确使用智能ABC输入法进行汉字输入,对输入速度没有具体要求。

    第一学时采用讲解法和演示法相结合并辅以练习法的教学方法。因为智能ABC输入法的编码规则较简单,可先集中讲解并演示其全拼、简拼、混拼这三种输入方法,然后留十分种让学生自己练习加以消化理解。在此基础之上,继续讲解并演示其他的一些智能法,如词组的定义方法、中文数量词的简化输入法等,以及属性设置的操作方法,同时让学生跟着一起操作,教会他们灵活地使用这种输入法。

    第二学时主要采用实习法,让学生自由选取文本进行输入练习,适当作些辅导即可。

    2五笔字型输入法

    课时定为20学时,教学目标是学会五笔字型输入法并达到20字/分的输入速度。

    前6学时主要采用讲解法 并辅以练习法。先要讲清楚五笔字型输入法的编码基础,包括汉字的三个层次、五种笔画、三种字型及其结构分析,启发学生转变观念,接受五笔字型对于汉字的新认识,这是至关重要的一步。然后讲解五笔字型字根键盘。因为字根有130种之多,虽有字根助记词帮助记忆,但这仍然是一大难点,学生容易产生畏惧心理,甚至失去学习的兴趣。我在教学中一直采用逐区解决的方法,教学效果有所改善。具体做法是:先讲解第一区字根助记词,留5分钟让学生强记,然后列举第一区的字例要求学生做拆字练习以求加深影象并提高兴趣。比如:式、革、天、磊等都是由和一区的字根组成的。接下来讲解第二区至第五区时重复上述过程 ,最后再做一个综合练习。这一段内容通常要花费3个学时的时间,但总算基本能使学生树立起学习的信心。至于接下来的具体编码方案,要点是教会学生注意辨别键名汉字、成字字根、普通单字,因为它们是依据不同的规则进行编码的。

  余下的14学时主要采用实习法。 五笔字型的练习软件较多,可根据硬件的配置情况加以选用。在实习辅导时,应鼓励学生尽量使用简码和词汇码来提高输入效率。

    3纵横输入法

  课时定为14学时,教学目标是学会纵横输入法并达到20字/分的输入速度。

  前4学时主要采用讲解法和录像演示法。总的教学思路是先讲解编码要点,再逐步解决细节问题。纵横输入法的编码总则比较简单明了,因此可先从这一点入手。归纳如下表:

  

分  类           编码总则
   第一步    第二步
主部首汉字

副部首汉字

无部首汉字

主部首(1-2位代码)+字身

副部首(1位代码)+字身=字身

根据字身的字形分为七种情形,以笔形为单位进行编码

     在此基础上,开始逐步讲解十类笔形代码,55个主部首的代码、副部首的取码方法以及七种字身取码法。笔形代码较易记忆,副部首的代码无需记忆。

    ①单码主部首取左上角第一码;

    ②双码主部首取上下两角或左右两角的代码;

    ③“辶”(35)和“疒”(39)是两 个例外。

    七种字身取码法其实也很有规律,字形与取码规则之间的联系很容易使人联想起来。比如:田字形取其4个角的代码,“wpe9.jpg (728 bytes)”(71)、“wpeD.jpg (737 bytes)”(17)、“wpe1F.jpg (750 bytes)”(07)、“wpe20.jpg (737 bytes)”(7)、 “wpe21.jpg (730 bytes)”(22)、“wpe22.jpg (737 bytes)”(70)、“厂”(71)等均取其上部两角代码,不必硬记。

  比较困难的是补码的取码法,对于这个难点,可采用分层讲解的方法。先讲清楚补码的一般规则,即 当一个笔形独占字身的上部两角或下部两角时,一般要取补码,取码时优先取被笔形相贴的笔形,且右边笔形最优先。对于笔形代码为4、5、6时的特殊情况以及不取补码的情况,可先略讲,避免学生被细节所困扰而产生畏惧心理。

  其余一些内容,包括词汇码、简码、缩码等输入方法,非常简明易记,可让学生自学。

    至此,学生已能从总体上把握纵横输入法的编码方案,接着可安排学生观看纵横输入法的配套教学录相,帮助学生进一步加深印象,也可提高趣味性。

    余下的10学时主要采用实习法。最适用的软件就是苏州大学纵横汉字研究所开发的纵横汉字输入法教学演示软件和训练软件。在实习辅导时,鼓励并点拨学生逐步搞清补码的特殊情况,在操作过程中比较轻松地解决这个难点。

    四、讨论

  如何更好地解决计算机汉字信息的处理问题,即加快自然输入法的研制进度,或者研究更优秀的编码输入法,是计算机汉字软件开发者面临的问题。而如何在现有的汉字信息处理环境下选择比较合适的汉字输入法,把我们的学生培养成具有相当计算机操作技能的现代化人才,则是摆在我们计算机教育工作者面前的课题。

  在实施汉字输入法教学的过程中,可供探讨的问题还很多。比如:

  ①如何进一步探索计算机辅助教学(CAI)这种现代化的教学手段?

  ②如何更好地利用启发式教学方法使学生能尽量轻松愉快地学会一种优秀的汉字输入法,比如纵横汉字输入法?

  ③如何更好地在纵横码教学中把握好“补码”这一难点?

返回论文集二目录