纵横码与我的科研

苏州大学     王翼勋

    我虽然是非专业输入人员,但为写书、录文章而打了近二百万汉字,具有五年多教学汉字输入法的实践,下面从应用的角度谈谈自己对纵横码的认识。

    这十年来,是计算机日益普及、逐渐进入家庭的时代,也是各家中文软件、各种编码的“春秋战国”时代 。我认为,离开了“发展”这个基本的大环境,就讲不清对汉字编码的认识。

    我学汉字编码的首要目的是写书,出版社要求交磁盘。否则,我的手稿如果依赖打字员去排,内容再好 ,也不知哪年哪月才能出版。所以说,我学汉字编码,是“逼上梁山”。

    初学输入,首先想到的是求助于汉语拼音。接触计算机英文大键盘之前,我已经在机械打字机上盲打了8年 ,输入拼音的手指操作数量再多,也难不倒我。但问题是我出生在浙江,生长在苏南,普通话不准。“sh”与“s”,“ing”与“in”,老是搞不清。如果在“sang”中找不到赏字,就得改到“shang”中去找,而“shang”中的重码多达68个。无怪一分钟打不了10个汉字,一小时中坚持不了40分钟。

    于是想到用双拼输入法,当时只是个早期版本,双字词组中每个字只用一个声母键,一个韵母键。增加了重码,多翻几页去找,总比找不到强。速度是快了一些,但在重码中翻页找字,眼睛吃不消,连续输入做不了半小时,一天做不满五小时。出版两本书,八十万字,所花时间实在是不好统计的。

  要想不纠缠于拼音,减少重码,只有学形码。

    当时流行的是SPDOS及WPS五笔字型,还得逐字输入,拆码是个困难,补字型识别码更困难。130个字根,抄在小卡片上,粘在屏幕旁边,输入时随时查对。在1994年就个人拥有一台机的有利条件下,也要在练习半年时间之后,输入速度才与拼音输入相当。不错,五笔字型有个选择式易学输入法的Z功能,但首先还得大致掌握拆字法,八九不离十,才能用它解决问题。如果在入门起步阶段,逐字输入全用Z功能,搞出一大堆重码,其间排列似乎还没有什么规律,还不如一本以拼音索引的五笔字型编码字典。

    说句老实话,真正下决心了,要正正经经地学五笔字型了,不是为自己用,而是为教《计算机文档》课的汉字输入法,介绍五笔字型编码。站在讲台上,可不能随随便便绕过哪个汉字,输不出就放弃。为了教会学生,我还想了不少办法,但效果还是不甚理想。

    我对中国数学史有兴趣,一辈子的心血花在校勘南宋的数学名著《数书九章》上,其中有占当时世界数学水平顶峰的一次同余式组解法和高次方程数值解法,比欧洲遥遥领先了几百年。这本书流传到今天,成了三个大系统,九种不同的版本。怎样恢复原貌,是件值得投入一辈子精力的工作。但是,我的计算机没法处理繁体字,还是停留在爬方格子的原始水平上,计算机的优越性也就体现不出来。

  我曾求助于WINDOWS 3.1繁体版,BIG5字库中有一万多个繁体字。面临的就是音码、形码的输入难题。繁体版的注音输入法,令我望而生畏。查工具书吧,手边工具书还够不上需要。例如,在1977年北京商务印书馆出版的《新华字典》(1971年修订重排本)中,“什么”一词中“么”字的繁体,有二种注音。我调出注音输入法的小键盘,用鼠标逐个去点,哪一个都不灵,最后偶然才碰出。更叫我头痛的是,它还要凭四声来减少重码,不输入阳平,字就出不来。我拼音都不准,何况还要四声。这样一来,输一个字总是花三、五分钟。

  同样,求助于WINDOWS 95繁体版,面临的问题,还是繁体版的注音输入法。

    幸亏有了WINDOWS 95简体版 ,幸亏有了ISO 10646国际标准的20902个汉字,才给我真正创造了客观物质条件。但我要讲的第三个幸亏,是幸亏有了纵横码。

  纵横码在WINDOWS 95中,轻松地对简繁混合体20902个汉字编码而重码很少,基本在一个提示行内全部列出。

  在纵横码汉字输入法中,单字输入、词组输入和自定义词组输入,可直接调用所有的简繁字。例如,“国家”的“国”字,简体的编码肯定与繁体的编码不同,想要哪个就是那个。

    纵横码的词组有6万多条,输入法更有特色。二字词组,取每个字的前三码;三字词组,取每个字的前二码;四字词组,取第一、四字取前二码,第二、三字只取一码。由于每个汉字的纵横码,先是主部首,其次是副部首,第三是字身取码,并非个个汉字要补码。字身取码的最后一步,因种种原因,才引入补码规则。这意味着,词组输入法完全避开了难以记忆的补码规则。

    模糊输入,用问号代替其它输入码,充其量在提示行内的几个重码中找一下。实在是太理想了。何况,模糊输入对词组也能使用。

    然而,我不是第一次学形码,从五笔字型转向纵横码,干扰非常严重。我得甄别纵横码的长处,从几个方面反复考虑,才能最后下决心。

    想来想去,只要我用ISO 10646中国际标准的20902个包括日本汉字、韩国汉字、香港地区使用的粤语方言字、繁体字和简体字在内的任何方块汉字,就只有下决心学纵横码。很简单,不学会纵横码,我只能局限在6763个汉字中,十六年写的心血《数书九章校勘》就输入不进去,这又是一次“逼上梁山” 。

    不过说实话,纵横码入手容易,精深难,因为补码规则难以记忆。这一点,我深深体会到编码创始人的苦衷。作为一种对付这么多繁杂汉字的编码方案,为了减少重码,更为了体现方案完整性,不得不加上补码规则。就五笔字型而言,它的规则依赖字形,但对6763个都不够用,再得加几百个难拆字,你不靠硬记住,凭规则能想出拆“曹”字吗?至于“靥”和“嵊”,是什么规则和难拆字表都管不住的。

    其实,如前所说,输入词组时,补码规则的作用就降低了。对于单个汉字,我也是可以尽量避开补码规则的,一个方法是输入词组,删去不要的字。第二个方法是转到另一个熟悉的输入法,主要是音码,不也就可以输入了吗。我不是说不要学补码规则,而是说可以慢慢来,暂时记不住,不构成致命的障碍,时间长了,自然会了。

    总之,讲到我的汉字编码使用观,也就是选择输入法的标准,从帮助我科研的角度出发,排列次序可能与别人有所不同:

    第一点是关于速度与找字。

    速度并不是第一位的,想到什么,就能打进去,边想边打,边打边想,每分钟大概30到40个,足够了。哪个业余打字员是每分钟100个,接连二、三个小时一口气打完的?不查词典,能迅速找到所用的字词,则是第一位的。

    第二点是关于音码与形码。

    拼音码是基本的。拼音准,能全拼,令人羡慕,但按键次数之多,却不令人羡慕,除非能达到英文盲打的程度。UCDOS5.0和6.0的智能拼音,WINDOWS 95的智能ABC,都有其特色,值得推荐。但音码只能对付一、二千个常用的汉字,对一个科研人员来说,词汇量大得多,若要靠拼音输入,汉字不同于英文,认得了字面,认不了音。对一个涉及古代汉语的人来说,恐怕懂得意义的字词多,发音准确的字词不见得有多少,靠拼音输入,若再凭四声来减少重码,烦上加难。因此,音码和形码一定要结合使用。而形码的潜力是最具有吸引力的。

    综观计算机“发展”这个基本的大环境,我认为,当前的各种编码,已经从“春秋”时代转入“战国”时代,成气候的编码方案不过是十几家了。这是自然淘汰的结果,是符合客观规律的。

    一个科研工作者,年近四、五十岁,想独立输入汉字写自己的文章和论著,由于只能学一种形码,又想学了后,不但能在WIONDOWS中解决形码输入问题,而且能随着这个形码的发展,越来越方便、快捷,那就是学纵横码。

    就WINDOWS 95上附带的输入码看,有个郑码输入法,靠形码输入,分成普及版和标准版两种。普及版只能用于6763个汉字。用设置中的输入法安装,能装上标准版GBK郑码输入法,也能输入20902个汉字。把它与纵横码比较,同样为了对付这么多繁杂汉字,为了减少重码,更为了体现方案完整性,不得不加上各种各样的规定。思路不同,编码有所不同。不言而喻,由于形码只能学一种,我就不去钻研它了。

    选准了方向,才考虑第三点,即学习时的难易问题。要出书,要交磁盘给出版社,这就是“逼上梁山”,再难也得学的。

    上面,我只是从一个大陆上用惯简体字的用户角度出发,因为要输入古代文字,讲到在简体版的WINDOWS95中调用繁体字。

    我们知道,6763个简体汉字的选择是有其时代特点的,因而有其局限性。例如,双喜字,用字上加一撇的地名字,升字上加个日的字,都没有收录。再有,中国人取名用字是有强烈的传统色彩的,反映了中华文化的特色,但是相当一部分人名用字超出了6763个简体汉字,苏州大学学生名册上,经常出现有姓无名、双名变单名的怪事,给点名、考试、登录成绩造成很大的麻烦。一句话,凡是不想受6763个汉字局限的人,全要想到包含了所有汉字字形的20902个汉字。用了纵横码,还是在简体版的WINDOWS95中写你的繁体 字文章好了,你可以轻松调用20902个中的任何一个字。

    再扩大讲,就汉字集在世界上所涉及的范围而言,香港、澳门、台湾同胞,乃至东南亚华侨同胞,他们今天在用的就是繁体字,纵横码解决了他们输入时的困难。而用繁体版的WINDOWS95,同用样的输入法,不但可以输入他们日常用的繁体字,也可照样输入大陆上看惯的简体字。

  纵横码的意义,确确实实是无法估量的啊。

返回论文集二目录