纵横码技术浅论
苏州大学纵横汉字信息技术研究所朱巧明 陈志锋 张国强
一、前言
计算机作为一种工具现已得到普遍应用,而原先是中文信息处理瓶颈的输入法也正在被日益完善。作为计算机汉字输入法的一种,纵横码正以其新的面貌服务于广大计算机用户,使越来越多的人得到纵横码的实惠。纵横码是由香港周忠继先生经过数年时间的努力而研制成功的,并在香港出版了码本。一九九三年,纵横码由苏州大学纵横汉字信息技术研究所顺利转化为纵横汉字输入系统和纵横汉字编码法教学系列软件,为广大计算机用户提供了一种新颖实用的汉字输入法。经过这几年的推广,纵横码现已遍地开花,从江苏推广到上海市,到浙江省,到山东省……。纵横码以其编码规范,输入法采用计算机技术的先进性,正被越来越多的计算机用户所认可。下面,笔者想简要探讨一下在纵横码及其输入法的开发过程中采用的思想理论和技术。
二 、纵横码的编码原理
汉字不同于西文,在字形、发音、书写方式到句法和语法都有其特殊性。汉字是表意文字,是用表意体系的符号来表示汉字的词或词素。汉字一般不能直接表示出读音,尽管有表音成形的形声字,本质上,汉字还是属于表意文字体系。也就是说,汉字是以其形为主的。
1字形编码的心理依据
现代模糊科学的重要依据之一是人的心理活动规律的仿生学应用。人们的行为活动,通常是在从客观事物获取模糊的映象、表象以及概念的情况下展开的,由此才能作出最迅速有效的反应。对于汉字的识别过程,人们是依据从字获得的大体轮廓的模糊映象而迅速进行的。因此,根据一个字的首要信息和起最大信息作用的边角突出笔画作为主要标志确定编码,能够便于迅速准确地为汉字定码、检索和实行输入操作。
2形码设计的方案提出
计算机处理要求所选择的“汉字特征”与“信息符号”之间保持一种十分严整的对应关系,即“符号”与其所代表的“汉字”之间有唯一的对应关系。因此,在设计编码方案时要求努力减少重码字,即尽可能的保证这种唯一性 。
计算机的操作人员,则要求所确定的作为编码依据的“汉字”特征,具有最大的限度和单纯性与直观性,要求“汉字”的特征和与之相对应的“符号”间关系具备心理上的可接受性。因此,编码方案力求“汉字的可接受信息符号”。
3心理学角度所要求的汉字形码方案的特点
首先,为了汉字信息的高速输入,字形与信息符号应符合人们一般的辨认汉字的规律。人们辨认汉字的一般规律是利用记忆中对旧字形的把握,来不断地把握新的字形。因此,汉字“字义的载体”单体字占的比重最大,其次是“义符”、字体和笔画可作为辅助特征来使用。
再次,人们辨认汉字时,首先和主要获得清晰印象的是字的边角突出笔画(头尾、偏旁、外框)。即人们辨认汉字时,首先把握住的是“汉字”的轮廓,是突出的字体位置上的印象。
最后,根据我国心理学家的研究表明:汉字右下角被掩盖后,可认度影响较小;而对左右型及上下型结构汉字来说,左上角被掩盖后,可认度明显降低;对整体型汉字,无论掩盖哪个角,对可认度影响相差无几。
4纵横码的编码
汉字是象形文字,从汉字发展历史过程可以看出,是先造汉字,再造部件,尔后才造笔画的。因此,汉字部件拆字法是汉字造字法的基本原理。在纵横码的编码方法中,对一个汉字先取其主部首(或副部首),再对剩余的字身取笔形,完全符合汉字造字法的基本原理。纵横码的主部首共55个,均包含在GB2312(信息交换用汉字编码字符集——基本集)6763个汉字中,显然是十分规范的。纵横码切分的汉字部件在GB2312和GBK中的频度如表2-1所示(频度1是指在汉字总数为6763的GB2312的字数,频度2是指汉字总数20902的GBK中的字数)。
表2-1 纵横码各部件在汉字构字中的频度
| 部件 代码 |
频度1 | 频度2 | 部件 代码 |
频度1 | 频度2 | 部件 代码 |
频度1 | 频度2 | ||
| 0 | 498 | 1795 | 14 | 29 | 330 | 49 | 275 | 979 | ||
| 1 | 395 | 1140 | 16 | 102 | 60 | 53 | 14 | 30 | ||
| 2 | 131 | 496 | 17 | 50 | 150 | 56 | 130 | 425 | ||
| 3 | 1139 | 3150 | 18 | 42 | 164 | 61 | 96 | 275 | ||
| 4 | 1037 | 3295 | 22 | 51 | 131 | 62 | 67 | 221 | ||
| 5 | 419 | 1303 | 30 | 63 | 182 | 70 | 28 | 242 | ||
| 6 | 473 | 1281 | 31 | 351 | 1038 | 71 | 46 | 126 | ||
| 7 | 414 | 1492 | 32 | 82 | 343 | 72 | 121 | 326 | ||
| 8 | 424 | 521 | 33 | 53 | 137 | 74 | 12 | 43 | ||
| 9 | 126 | 374 | 35 | 104 | 220 | 78 | 54 | 60 | ||
| 00 | 54 | 109 | 37 | 142 | 152 | 84 | 30 | 75 | ||
| 01 | 71 | 107 | 38 | 32 | 89 | 87 | 19 | 32 | ||
| 02 | 38 | 338 | 39 | 99 | 228 | 88 | 111 | 379 | ||
| 03 | 21 | 85 | 40 | 69 | 199 | 99 | 30 | 129 | ||
| 07 | 30 | 71 | 41 | 153 | 491 | 副部首 | 929 | 3342 | ||
| 08 | 16 | 183 | 44 | 113 | 462 | |||||
| 09 | 53 | 330 | 45 | 47 | 52 | 无部首 | 778 | 1884 | ||
| 11 | 81 | 100 | 47 | 30 | 97 |
由此,我们可以看出汉字中绝大部分均含有主部首或副部首,而副部首则主要采用在汉字中占主要地位的左右结构来划分(根据统计结果,左右结构的汉字在《辞海》中占68.45%,在GB2312中占62.59%,在《新华字典》中占64.20%)。这时,只剩下少量独体字,再将其按左上,右上,左下,右下进行笔画编码。
因此,纵横码编码规范,规则较少,重码率较低,且提供了多达10余万的常用词组库供用户方便的输入汉字,十分适合广大计算机用户输入汉字信息。
三、纵横汉字输入法采用的计算机技术
纵横码的成功固然与其编码方案有关,也与其输入法在开发设计中所使用的计算机技术有关。计算机技术是纵横码的重要支撑。
1纵横码的通用挂接输入系统
用户的使用环境是多种多样的:有使用DOS的,有直接使用纵横汉字系统的,有使用UCDOS的,有使用Windows 3.X的, 有使 用Windows 95的,为此,纵横码设计了专门针对DOS下的通用挂接输入系统和专门针对Windows 3.x/Windows 95的简体输入通用挂接输入系统和GBK输入挂接输入系统。上述挂接系统提供了容错输入(且支持词组),允许用户任意增加自定义词组,动态定义词组,提供多达10余万词条的词组库。这样,就能基本满足大部分用户工作学习的需要。现在,该通用挂接输入系统已成为江苏省和上海市计算机等级考试上机操作环境的一部分。
2纵横码的辅助教学技术
在纵横码的推广应用中,学员们普遍反映纵横码比其他汉字输入法易懂好学。其实,除了纵横码编码规范简明外,也得益于纵横码辅助教学软件。纵横码培训教学系列软件其设计目的就是帮助用户学习纵横码的编码规则,从而使用户高效、快速、轻松的掌握纵横码,用于中文信息处理。纵横码培训系列软件采用形象的图形,在国内最早使用多种不同颜色来表示各个笔形,每种颜色和笔形及其代码相对应,教学方式直观,用户接受很快。纵横码培训系列软件根据教学理论与实践,遵循循序渐进的原则,由简入繁,由易到难,从笔形到部首,由单字到词组,使用户训练有目的、有重点、出效果,达到了事半功倍。
3发布于Internet的纵横编码查询系统
随着网络 技术的发展与普及,Internet使世界变小了。全球信息网WWW(World Wide Web)风靡世界,WWW克服了以往Internet只能以字符文本发布信息,而代之以超文本标记语言HTML,使得各网站页面丰富多彩,网络逐渐成为我们生活的不可缺少的一部分。因此,纵横码的中文网站的设立为广大计算机用户带来了福音。现在,无论纵横码用户身在何地,只要能上Internet网,就可以从此中文站点下载纵横码系列软件、联机查询汉字编码、动态进行词组编码、解答用户常见问题等等。总之,纵横码与你近在咫尺。
四、前景与展望
计算机技术在不断发展,同样,我们用户的需求也在不断发展。为了满足用户的需求, 纵横汉字信息技术研究所正在开发基于Internet/Intranet的纵横码教学培训与测试系统。纵横码基于Windows 95的双内核版通用挂接输入系统也即将推出。
我们相信,随着纵横码技术的不断发展,纵横码与广大计算机用户关系必将越来越密切。