纵横输入法词覆盖率的统计研究

苏州大学纵横汉字信息技术研究所     强文明

    纵横码具有许多吸引人的特点,其中有一个很重要的特点是重码率极低,即使是引入了大容量词库后亦是如此。它的另一个重要特点是拥有大容量的词库。最初,纵横码输入系统只带有5000多条词的词库,经过多年的发展与扩充,现在的WINDOWS纵横码输入系统的词库拥有近90000条词。但是,在这种情况下,纵横码的重码率(字词混合编码)仍然极低。

    大家知道,词输入能大大提高编码输入法输入汉字的速度,一篇文章的录入若其绝大部分内容可以用词输入,则录入速度肯定较快,反之则较慢。 因此,我们除了关心纵横码的重码率外,还应关心其词对输入内容的覆盖率。为此,我们作了一个比较简单的统计,现把统计结果公布出来,以提供大家参考。

    我们随意抽取“江泽民主席在九届人大一次会议上的讲话”进行统计。该文共902个汉字。在用纵横码输入该文的过程中,用单字输入的次数为88次,用词输入的次数为301次。

    用单字输入的字及其出现 次数如下:

          的(32次)     和(9次)     为(6次)     在(4次)     了( 4次)     有(4次)

          将(4次)      我(2次)     们(2次 )    向(2次)     地(2次)      把(2次)

          而(2次)      要(2次)     上(1次)     正(1次)     与(1次)      间(1次)

          里(1次)      等(1次)     是(1次)     到(1次)     时(1次)      都(1次)

          也(1次)

    用词输入的词的组成情况如下:

          二字词           194个            共388个字

          三字词           33个             共99个字

          四字词           56个             共224个字

          多字词           18个             共103 个字

    从以上统计所得出的结果不难看出,在这篇文章中,纵横码词输入的内容占全文内容的90%以上,这说明在纵横码中词的覆盖率相当大。而且四字词和多字词在其中占了相当大的比例。另外,这篇文章用单字输入的字中,大部分为具有简码的常用字,有的字的出现次数较多,显然对这些单字的输入是快捷和方便的。

    因此,我们的经验是,用纵横码输入汉字信息时,应尽可能用词来输入,因为它拥有你所能想到的几乎所有的词,这样你将能通过纵横码享受到快速输入汉字信息的感受。所以我们认为,纵横码确实是一种简便 、快速、实用和先进的汉字输入码。

 返回论文集二目录