孤島日誌

2005年九月,一個不想認真寫、卻想認真生活的部落格
2009年六月,iBook不再是iBook
2011年五月,一切未定


汪洋的世界中,我們每個人都是座孤島

星期四, 3月 27, 2008

Han Nom unicode字型及全字庫正體倉頡輸入法

 星期二上完課後不小心和Tom和另一個學妹聊了起來。也不知道怎麼樣,聊著聊著聊到Linux才知道Tom用Linux用了十一年。在我所認識的人裡面似乎還找不到有這麼一位人兄,所以還蠻開心的。後來Tom提到他在研究太極拳,裡面有些不常用的字電腦裡沒有。他電腦的編碼應該是Big5,他說他試過自己造字,但字造出來後也不知道該怎麼把它加到編碼中讓系統可以顯示這個字。這個嘛,我其實也沒研究過要怎麼樣做。不過前陣子剛好知道有全字庫這東西,含納了許多Big5沒有的字在裡面。全字庫的網站上提供了幾個字型檔,使用的是Unicode,再加上之前有看到Han Nom這個越南人所做的unicode字型,“據說”有相當完整的漢字;所以我的建議是用Unicode,也許裡面會找得到他所需要的字。

 回家之後,因為要寄之前看到的資料給Tom,所以自己也研究了一下。製作Ham Nom字型的機構似乎是在從事越語的研究,我看到他們網站上提到Han Nom分成A/B兩套字型,分別包含了CJK(中日韓)跟CJK擴充字組A跟B(ext A/B),另外還有一些零星的外文字。別的不說,CJK的部分兩套字型加起來就超過六萬字。全字庫裡提供的字型檔正楷體也才三萬八千字,由此可見Han Nom裡的漢字有多完整...

 回到全字庫,其實我還不太清楚全字庫的定位是在哪裡。看起來全字庫是想提供完整的中文字解決方案,Big5碼因為先天不足的問題而無法容納所有的中文字,若是電腦要顯示現在很少在用的古字,Big5可是捉襟見肘...。全字庫裡的字型算是容納很多字了,我找到了一個列出CJK ext A/B的網頁。我在安裝Han Nom之前Mac裡已經有全字庫字型,那時所有ext A的字都有了,ext B則只有少部分的字有。裝了Han Nom之後再去看,你會發現所有ext B的字型都顯示出來了。

 話說,有那麼多的字可以用是件蠻開心的事,不過如果要用的時候打不出來的話不會很OX嗎?因為我後來發現一般的輸入法並沒有包含那麼多的字,所以就算有了完整的字型,它等於看得到“吃不到”...。但很棒的是,這次回去看全字庫的網站發現它新增了全字庫的輸入法,有提供倉頡、注音等。雖然Mac上不能用,但是有輸入法表示有輸入法表格可以用。因此我開始動起腦筋,抓下來想看看有沒有什麼方法把它的輸入法表格加到香草輸入法來用。全字庫的輸入法表格是tab檔,所以無法直接使用,我得想辦法把它轉成cin檔。不過,後來我發現有人已經轉好了,而且香草輸入法的擴充包裡也提供倉頡跟注音的大字集輸入法表格,這兩個似乎也是從全字庫來的。

 我個人使用的輸入法是倉頡,因此我也只裝上了全字庫的正體倉頡輸入法表格。我後來發現全字庫的正體倉頡和我平常使用的不太一樣,有些字的拆碼不同。比對之後發現它用的似乎是倉頡五代,但有幾個字用的卻又是三代的碼,有點像是混種的感覺...。無論如何,我後來嘗試做最小限度的修改來減低我重新記憶字碼的負擔,但是還是失敗了。全字庫的拆字在某些字上沒有統一拆法,像“母”這個字的字碼是「田卜戈」,“毒”這個字的下半部也是個母字(不考慮在某些字型上的變體的話),因此這地方的拆字若和母字的拆法一樣我就不必再多記一種拆字法;慘的是全字庫的“毒”字是拆成「手一田十」,我之前所用的拆法卻是「手一田卜戈」。我的天,要是它是「手一田戈」的話就算了,至少字的拆法是相同的。“毒”字下半部拆成“田”跟“十”等於是在說它跟“母”字不一樣。這樣的字給我多來幾個我可受不了,後來就換成香草輸入法提供的大字集倉頡,發現我之前用的拆法都能用,而全字庫的拆法也行,看起來似乎是整理過的版本。我後來只做了 一些小細節的修改來符合我的打字習慣,在拆字方面沒再出現什麼問題。

 所以,現在我的Mac已經可以輸入跟顯示字型檔所提供的完整漢字,算是令人快樂的一件事吧?(是嗎?你要那麼多平常不會用的字幹嘛.....炸)

沒有留言: