纵横输入法词覆盖率的统计研究
苏州大学纵横汉字信息技术研究所 强文明
纵横码具有许多吸引人的特点,其中有一个很重要的特点是重码率极低,即使是引入了大容量词库后亦是如此。它的另一个重要特点是拥有大容量的词库。最初,纵横码输入系统只带有5000多条词的词库,经过多年的发展与扩充,现在的WINDOWS纵横码输入系统的词库拥有近90000条词。但是,在这种情况下,纵横码的重码率(字词混合编码)仍然极低。
大家知道,词输入能大大提高编码输入法输入汉字的速度,一篇文章的录入若其绝大部分内容可以用词输入,则录入速度肯定较快,反之则较慢。 因此,我们除了关心纵横码的重码率外,还应关心其词对输入内容的覆盖率。为此,我们作了一个比较简单的统计,现把统计结果公布出来,以提供大家参考。
我们随意抽取“江泽民主席在九届人大一次会议上的讲话”进行统计。该文共902个汉字。在用纵横码输入该文的过程中,用单字输入的次数为88次,用词输入的次数为301次。
用单字输入的字及其出现 次数如下:
的(32次) 和(9次) 为(6次) 在(4次) 了( 4次) 有(4次)
将(4次) 我(2次) 们(2次 ) 向(2次) 地(2次) 把(2次)
而(2次) 要(2次) 上(1次) 正(1次) 与(1次) 间(1次)
里(1次) 等(1次) 是(1次) 到(1次) 时(1次) 都(1次)
也(1次)
用词输入的词的组成情况如下:
二字词 194个 共388个字
三字词 33个 共99个字
四字词 56个 共224个字
多字词 18个 共103 个字
从以上统计所得出的结果不难看出,在这篇文章中,纵横码词输入的内容占全文内容的90%以上,这说明在纵横码中词的覆盖率相当大。而且四字词和多字词在其中占了相当大的比例。另外,这篇文章用单字输入的字中,大部分为具有简码的常用字,有的字的出现次数较多,显然对这些单字的输入是快捷和方便的。
因此,我们的经验是,用纵横码输入汉字信息时,应尽可能用词来输入,因为它拥有你所能想到的几乎所有的词,这样你将能通过纵横码享受到快速输入汉字信息的感受。所以我们认为,纵横码确实是一种简便 、快速、实用和先进的汉字输入码。