纵横码性能分析方法

上海交通大学     章桓明   谢维平   卢党吾

    汉字是世界上历史最悠久的文字之一,它是我国通用的文化工具,也是世界上公认的重要文化交流工具之一。近几年,随着计算机技术蓬勃发展和它在中国的广泛应用,汉字信息处理成了计算机应用的一个重要方向,它对我国计算机应用事业的发展有着特殊的意义。目前,汉字编码键盘输入法名目繁多,虽然都解决了汉字输入问题,但都有这么一点缺点:或需要记忆的东西太多,或重码率高,或编码规则复杂。作为新一代汉字编码的纵横码在这些方面有了一个较好的解决方案,它口诀记忆简单、重码率低、编码规则相对较容易。

    众所周知,汉字编码的输入过程是:人通过视觉或听觉识别汉字信息,然后通过大脑思维并运用编码规则将汉字转换成相应的字符代码,最后再找到相应键位,通过按键输入此汉字。从定性方面来看,纵横码可归纳为:编码方案对操作者要求较低,编码规则简单明了,易学易记,非规则编码要求记忆量少,重码率低,每个汉字输入的按键次数少,键位布置合理,单位时间内输入的汉字字数多,设备要求低,结构简单,技术上易于实现,外部码转换成内部码简单,相应软件占有的内存少等等。

    纵横码汉字输入法可从以下几个方面进行定量的分析:

    一、纵横码汉字的平均信息量

    按照信息论的原理,具有N个可能结局的实验β的熵(信息量)H(β),可由下式确定:

                               230.HT1.jpg (1729 bytes)

    其中Pi为各个结局的概率,恒有∑Pi=1。由于Pi≤1,故log2Pi为负数,为使信息量是一个正数,故冠以负号 ,其值代表此信息量所需的二进制数的位数,单位为比特(bit)。若Pi是某个汉字在N个汉字集中出现的概率,则上式为纵横码汉字所包含的平均信息量。

    二、纵横码码元的平均信息量

    纵横码以0~9十个数字作为码元,它的编码基数为10。由于纵横码编码位数不完全一致(全码为6),因此平均码长:

wpe25.jpg (1243 bytes)

   其中Pl是长度为l的码元出现概率,Ll是长度为l的码元的位数。由此可得码元所包含的信息量:

  wpe26.jpg (1372 bytes)

   其中Pmi为第i个码元单独出现的概率。

    三 、纵横码最小按键次数与编码估算

    从一个汉字的平均信息量H(β)和码元信息量M(K ),就可以求出平均用几位编码代表一个汉字,即平均按键次数L:

                          L=H(β)/M(K)

    汉字的编码效率:

                          η≈H(β)/log2K

    其中H为汉字的信息量,L为平均按键次数 ,K为编码基数。根据计算,得出几种方案的比较:

  方 案    L   K    η
  纵横码    4   10   0.71
  拼音输入法    6   26   0.45
  电报码    4   10   0.72

   

 

    四、纵横码输入速度

    这是指单位时间内击键输入汉字的字数。在信息论中,著名的Hyman公式:

                               T=a+blog2K

    给出了击键反应时间T。式中a为简单反应的击键时间常数,它与击键人员素质有关;b为因选键而比简单反应所增加的时间,它显然与击键人员对编码规则的熟练程度、键位数(即码元数)、键位布局、击键指法等因素有关;式中的K为编码基数。因此,以大量实际击键测试方法来给出这一结果。如果以每分钟击键输入汉字数作为输入速率S的单位,那么:

                        S=60/(a+blog2K)L(汉字数/分钟)

    式中L为汉字的平均按键次数。从上式可看出,纵横汉字编码输入法,采用小键盘十个数字键的键位布局及编码规则口诀记忆,都是为减小上式中的分母,以提高输入速率。

    五、纵横码重码率

    纵横码重码率是在考察汉字字频的基础上给出的重码实际出现的机会。以Pe表示重码出现率,即

              Pe=wpe27.jpg (939 bytes)Pij

    式中n为重码组数;m重码组中的重码字数;Pij是第i重码组中第j个重码字的字频。由此可以看出,当重码字的字频较大时,Pe的值也大;当重码字的实际使用机会较少,即字频较小时,Pe也小。

    六、纵横码非常规编码数

    纵横码非常规代码是利用基本编码规则以外附加的补码规则。它通常出现在如下情况中:按基本编码规则对某些汉字不能给出输入代码;减少重码字;用更简便的方法输入某些汉字。

    七、纵横码学习时间

    纵横码学习时间是指由不会到学会所花的时间,这是一项统计结果。以错码率作为是否“学会”衡量,规定达到错码率低于某规定值时总共所需的时间,即为学习时间。把大量测试结果归纳成曲线图(见图1)。三条曲线分别表示三种不同编码学习所花时间t1t2t3。

              234.gif (2543 bytes)

               图1

    八、纵横码熟练时间

    错误率在规定值以下,把键入速率稳定提高到最大值时所花费的时间。它也是一项统计结果,可以通过熟练曲线(见图2)来描述,图中三条曲线分别为三种不同编码方法输入速率达到稳定(饱和)状态时所花费的时间t1t2t3。

           wpe2.jpg (5226 bytes)

                    图2

     一般来说,评判一个汉字输入编码方法,还要从编码方法的性能来考虑,大约有五个方面:

      1 易学性:编码规则要简单明了,应没有特殊规则或尽可能少。

      2 可用性:在编码中,二义性和重码要尽可能少,但不强求为零。

      3 高速性:码长尽可能短,键位设计便于盲打,键入速度应尽可能高。

      4通用性:编码规则应独立于具体设备,适用于通用标准设备。

      5经济性:对主机软、硬件无特殊要求,便于维护。

    以上五性可用五星图表示。图3、图4和图5分别给出纵横码、拼音码和电报码的五星图,从中可见纵横码的优势。 

 2301.gif (9255 bytes)          

图3

 wpe4.jpg (10435 bytes)

图4

 wpe5.jpg (10993 bytes)

图5

    综上所述,纵横汉字编码具有先进的编码理论,以数字作为码元能对大字符集进行编码,显示出其强劲的发展势头。相信随着计算机技术的不断发展,必将推动纵横汉字编码进一步完善,以适应社会各个领域的需要。

 返回论文集二目录