當前位置:縱橫輸入法首頁>>教學經驗交流>>第二屆縱橫碼教學經驗交流會論文集

縱橫碼技術淺論
蘇州大學縱橫漢字信息技術研究所 朱巧明 陳志鋒 張國強

一、前言

  計算機作為一種工具現已得到普遍應用,而原先是中文信息處理瓶頸的輸入法也正在被日益完善。作為計算機漢字輸入法的一種,縱橫碼正以其新的面貌服務於廣大計算機用戶,使越來越多的人得到縱橫碼的實惠。縱橫碼是由香港周忠繼先生經過數年時間的努力而研製成功的,並在香港出版了碼本。一九九三年,縱橫碼由蘇州大學縱橫漢字信息技術研究所順利轉化為縱橫漢字輸入系統和縱橫漢字編碼法教學系列軟件,為廣大計算機用戶提供了一種新穎實用的漢字輸入法。經過這幾年的推廣,縱橫碼現已遍地開花,從江蘇推廣到上海市,到浙江省,到山東省……。縱橫碼以其編碼規範,輸入法採用計算機技術的先進性,正被越來越多的計算機用戶所認可。下面,筆者想簡要探討一下在縱橫碼及其輸入法的開發過程中採用的思想理論和技術。

二 、縱橫碼的編碼原理

  漢字不同於西文,在字形、發音、書寫方式到句法和語法都有其特殊性。漢字是表意文字,是用表意體系的符號來表示漢字的詞或詞素。漢字一般不能直接表示出讀音,儘管有表音成形的形聲字,本質上,漢字還是屬於表意文字體系。也就是說,漢字是以其形為主的。

1. 字形編碼的心理依據

  現代模糊科學的重要依據之一是人的心理活動規律的仿生學應用。人們的行為活動,通常是在從客觀事物獲取模糊的映像、表象以及概念的情況下展開的,由此才能作出最迅速有效的反應。對於漢字的識別過程,人們是依據從字獲得的大體輪廓的模糊映像而迅速進行的。因此,根據一個字的首要信息和起最大信息作用的邊角突出筆畫作為主要標誌確定編碼,能夠便於迅速準確地為漢字定碼、檢索和實行輸入操作。

2. 形碼設計的方案提出

  計算機處理要求所選擇的「漢字特徵」與「信息符號」之間保持一種十分嚴整的對應關係,即「符號」與其所代表的「漢字」之間有唯一的對應關係。因此,在設計編碼方案時要求努力減少重碼字,即盡可能的保證這種唯一性。

  計算機的操作人員,則要求所確定的作為編碼依據的「漢字」特徵,具有最大的限度和單純性與直觀性,要求「漢字」的特徵和與之相對應的「符號」間關係具備心理上的可接受性。因此,編碼方案力求「漢字的可接受信息符號」。

3. 心理學角度所要求的漢字形碼方案的特點

  首先,為了漢字信息的高速輸入,字形與信息符號應符合人們一般的辨認漢字的規律。人們辨認漢字的一般規律是利用記憶中對舊字形的把握,來不斷地把握新的字形。因此,漢字「字義的載體」單體字佔的比重最大,其次是「義符」、字體和筆畫可作為輔助特徵來使用。

  再次,人們辨認漢字時,首先和主要獲得清晰印象的是字的邊角突出筆畫(頭尾、偏旁、外框)。即人們辨認漢字時,首先把握住的是「漢字」的輪廓,是突出的字體位置上的印象。

  最後,根據我國心理學家的研究表明:漢字右下角被掩蓋後,可認度影響較小;而對左右型及上下型結構漢字來說,左上角被掩蓋後,可認度明顯降低;對整體型漢字,無論掩蓋哪個角,對可認度影響相差無幾。

4. 縱橫碼的編碼

  漢字是象形文字,從漢字發展歷史過程可以看出,是先造漢字,再造部件,以後才造筆畫的。因此,漢字部件拆字法是漢字造字法的基本原理。在縱橫碼的編碼方法中,對一個漢字先取其主部首(或副部首),再對剩餘的字身取筆形,完全符合漢字造字法的基本原理。縱橫碼的主部首共55個,均包含在GB2312(信息交換用漢字編碼字符集——基本集)6,763個漢字中,顯然是十分規範的。縱橫碼切分的漢字部件在GB2312和GBK中的頻度如表2-1所示(頻度1是指在漢字總數為6,763的GB2312的字數,頻度2是指漢字總數20,902的GBK中的字數)。

  表2-1 縱橫碼各部件在漢字構字中的頻度

部件
代碼

頻度1

頻度2

 

部件
代碼

頻度1

頻度2

 

部件
代碼

頻度1

頻度2

0

498

1795

14

29

330

49

275

979

395

1140

16

102

60

53

14

30

2

131

496

17

50

150

56

130 

425

3

1139

3150

18

42

164

61

96

275

4

1037

3295

22

51 

131

62

67 

221

5

419

1303

30

63

182

70

28

242

6

473

1281

31

351

1038

71

46

126

7

414

1492

32

82

343

72

121

326

8

424

521

33

53

137

74

12

43

9

126

374

35

104 

220 

78

54

60

00

54

109

37

142

152

84

30

75

01

71

107

38

32

89

87

19

32

02

38

338

39

99

228

88

111

379

03

21

85

40

69

199

99

30

129

07

30

71

41

153

491

副部首

929

3342

08

16

183

44

113

462

09

53

330

45

47

52

無部首

778

1884

11

81

100

47

30

97

  由此,我們可以看出漢字中絕大部分均含有主部首或副部首,而副部首則主要採用在漢字中佔主要地位的左右結構來劃分(根據統計結果,左右結構的漢字在《辭海》中佔68.45%,在GB2312中佔62.59%,在《新華字典》中佔64.20%)。這時,只剩下少量獨體字,再將其按左上,右上,左下,右下進行筆畫編碼。

  因此,縱橫碼編碼規範,規則較少,重碼率較低,且提供了多達10餘萬的常用詞組庫供用戶方便的輸入漢字,十分適合廣大計算機用戶輸入漢字信息。

三、縱橫漢字輸入法採用的計算機技術

  縱橫碼的成功固然與其編碼方案有關,也與其輸入法在開發設計中所使用的計算機技術有關。計算機技術是縱橫碼的重要支撐。

1. 縱橫碼的通用掛接輸入系統

  用戶的使用環境是多種多樣的:有使用DOS的,有直接使用縱橫漢字系統的,有使用UCDOS的,有使用Windows 3.X的, 有使用Windows 95的,為此,縱橫碼設計了專門針對DOS下的通用掛接輸入系統和專門針對Windows 3.x/Windows 95的簡體輸入通用掛接輸入系統和GBK輸入掛接輸入系統。上述掛接系統提供了容錯輸入(且支持詞組),允許用戶任意增加自定義詞組,動態定義詞組,提供多達10餘萬詞條的詞組庫。這樣,就能基本滿足大部分用戶工作學習的需要。現在,該通用掛接輸入系統已成為江蘇省和上海市計算機等級考試上機操作環境的一部分。

2. 縱橫碼的輔助教學技術

  在縱橫碼的推廣應用中,學員們普遍反映縱橫碼比其他漢字輸入法易懂好學。其實,除了縱橫碼編碼規範簡明外,也得益於縱橫碼輔助教學軟件。縱橫碼培訓教學系列軟件其設計目的就是幫助用戶學習縱橫碼的編碼規則,從而使用戶高效、快速、輕鬆的掌握縱橫碼,用於中文信息處理。縱橫碼培訓系列軟件採用形象的圖形,在國內最早使用多種不同顏色來表示各個筆形,每種顏色和筆形及其代碼相對應,教學方式直觀,用戶接受很快。縱橫碼培訓系列軟件根據教學理論與實踐,遵循循序漸進的原則,由簡入繁,由易到難,從筆形到部首,由單字到詞組,使用戶訓練有目的、有重點、出效果,達到了事半功倍。

3. 發佈於Internet的縱橫編碼查詢系統

  隨著網絡技術的發展與普及,Internet使世界變小了。全球信息網WWW(World Wide Web)風靡世界,WWW克服了以往Internet只能以字符文本發佈信息,而代之以超文本標記語言HTML,使得各網站頁面豐富多彩,網絡逐漸成為我們生活的不可缺少的一部分。因此,縱橫碼的中文網站的設立為廣大計算機用戶帶來了福音。現在,無論縱橫碼用戶身在何地,只要能上Internet網,就可以從此中文站點下載縱橫碼系列軟件、聯機查詢漢字編碼、動態進行詞組編碼、解答用戶常見問題等等。總之,縱橫碼與你近在咫尺。

四、前景與展望

  計算機技術在不斷發展,同樣,我們用戶的需求也在不斷發展。為了滿足用戶的需求, 縱橫漢字信息技術研究所正在開發基於Internet/Intranet的縱橫碼教學培訓與測試系統。縱橫碼基於Windows 95的雙內核版通用掛接輸入系統也即將推出。

  我們相信,隨著縱橫碼技術的不斷發展,縱橫碼與廣大計算機用戶關係必將越來越密切。