當前位置:縱橫輸入法首頁>>教學經驗交流>>第二屆縱橫碼教學經驗交流會論文集

基於縱橫碼的檢字法
常州技術師範學院計算機系 尹長青 陳亞銘 葛軼

一、前言

  中文檢字法,是指能在眾多的字、詞中把我們需要的字、詞都能快速地檢索出來的一種方法。 西文是拼音文字,它有一個字母的固定排序,且單詞、不論長短,按字母的排列組合,就能簡便地檢出來。而中文檢字法實現起來相對較為困難。中文檢字法應當做到老少皆宜,既能適宜於啟蒙教育,又能適宜於大眾普及使用。現有的中文檢字法,在字詞典上有傳統的部首檢字法、漢語拼音檢字法、筆畫檢字法等等。而電腦的漢字編碼有音碼、形碼、音形碼、流水碼等四大類,方案數不勝數。面對眾多的中文檢字法,人們共同的感覺就是,各有長處,但都美中不足,不盡如人意,都希望有更好的檢字法能供大家使用。

二、中文檢字法的現狀和不足

  現有的電腦漢字編碼的檢字法,不外是採用以下幾種方法。

1. 部首檢字法

  部首檢字法雖實用,但滿足不了現代快速檢索的要求。因為部首檢字法對取部首的方法只定了形,沒定好位,要判定一個字屬何部,還要花一番功夫推敲。我國漢字信息處理的現狀是:文字有規範,書寫有規則,而取部首無規定。其缺點是部首太多、太散、無規律,取部首無定位,無規定。所以部首排序檢字法一直被電腦拒之門外。為滿足漢字快速檢索,還需進一步探索。

2. 漢語拼音排序檢字法

  雖說是漢語拼音排序,實際上此方法並不是按漢語拼音字母的聲音、韻母的排列規律來排序的。而是套用26個英文字母的排序來對中文排序它是採用每個字的漢語拼音字母按英文字母A到Z來組合排序,西文是拼音文字,用字母排序是很成功的。而中文就不同,因它的特點是一音四調,一音多字,一字多音,一次排序不行還要按聲調陽平、陰平、上聲、去聲來進行第二級排序(電腦漢字編碼連這級都沒有)。這樣排序後,同序的同音字仍有很多。後面就沒有序了。

  漢語拼音排序法的優點是簡單、易學,電腦和字母排序通用,現有的多數字典、詞典、電腦的音碼,都是採用這個方法排序的。但不足之處就是有相當多的同音字沒有序(即重碼),如果說無序的同音字只有三五個,問題不大;但實際上是十幾個,有的還有上百個。如讀音是yi的字就有110個,不但在字詞典上不能在當頁查到,在電腦上也要不斷翻頁才能查到。由此看來,漢字不是拼音文字,用音來排序檢索有其不足之處。更重要的是我們日常使用的不是拼音而是漢字,如果碰上下知道讀音的漢字,此法就無法應用了。

3. 筆畫數排序檢字法

  這個方法很簡單,就是按漢字的筆畫數從一畫到三十多畫依次排序。同筆畫的則按橫豎撇點捺的先後兩兩組合排序,無須記憶。缺點是每個字都要慢慢地數筆畫,效率很慢。現有的編碼,不論其如何變化,他們共同的特點就是指組成漢字的各種構件(各編碼稱為字元、字根或其它),按筆畫的規律或者是自定的某些規律把漢字的構件排好序,然後把它們對應地安排在26個英文字母上,每個字母代表幾個構件。借用英文的排序來實現漢字的排序。此法規則多、記憶量大,不適宜大眾普及使用。

三、基於縱橫碼的檢字法

  縱橫漢字編碼法是一種將漢字輸入電腦和簡易方法。這種方法將構成漢字的筆畫分10種筆形進行編碼。它類似漢字的四角號碼字典的筆畫分類法。同時,為了減少重碼,縱橫漢字編碼中還對漢字的字形作進一步劃分。它將漢字分為兩類,一類為有部首漢字;另一類為無部首漢字。其中,對漢字的部首作了歸類,提取了55個主部首。因此,縱橫碼是一種簡單易學、規則易記、重碼率低的漢字輸入方法,它對中文根基不深及漢語拼音不熟的廣大用戶無疑是一種方便、快捷的漢字輸入方法。它具有記憶量少——只需記55個部首;操作簡單——用「0」-「9」這10個數字鍵;使用方便——不需使用英文大鍵盤等特點。

  我們根據漢字的縱橫編碼來進行排序,若出現重碼,則進行分離,規則如下:按筆畫數的多少來進行排序。由此,我們得到了縱橫碼的排序法,本排序主要是根據漢字的縱橫碼來進行。而縱橫漢字編碼重碼率極低,故利用縱橫碼快速準確地檢索漢字。隨著現在漢字GBK內碼的使用,系統提供了多達20,902個符號,而其檢索法則急待完善。因此,我們提出採用縱橫碼漢字檢索法來進行GBK中符號的排序,將有利於漢字檢索的規範化。縱橫碼易學,不易忘,如中小學生都學會了縱橫碼檢索漢字,必將大大方便他們用計算機檢字和檢詞。