身份證上的人名、地名為什麼打不出來

身份證上的人名、地名為什麼打不出來

因身份證上的地名、人名專用字無法顯示而造成不便的現象已經屢次見諸新聞報道,而所有的新聞報道都像投進深潭裡的石子,再也沒有了回聲。那麼,電腦為什麼無法顯示這些“生僻字”?有沒有辦法解決?為什麼問題出現這麼久了仍然解決不了?我寫本系列文章的目的,就是試圖根據我近幾年參與地名用字編碼工作的經驗,對這些問題進行初步探討。

(注:嚴格來說,Unicode標準和ISO/IEC 10646標準是有差別的,但對於非專業人員來說,可以認為兩個標準等效。為了方便,文中統一用Unicode標準指代上述兩個標準。)

原理篇

首先,我們來回答第一個問題:為什麼身份證上的地名、人名專用字電腦顯示不了要回答這個問題,就必須先了解電腦顯示字符(比如漢字、英文、標點等)的原理:

1

Unicode標準

其實在電子設備的最底層,處理的都是二進制的數據

,對應物理電路的開和關兩種狀態——那麼,要處理各類字符,就必須用一串0和1來表示它們。為了不致混亂,現在國際上有一個統一的標準,來規定具體哪串二進制數代表哪個字符,即Unicode標準。在這裡可以打一個不很恰當的比方,為了便於理解:Unicode標準的作用大概相當於世界語之於世界各國的語言,可以讓不同計算機和應用之間的數據傳輸暢通無阻。只不過在計算機的世界裡,大家基本都用“世界語”。在Unicode標準下,代表某個字符的一串二進制數稱為這個字符的“碼位”,給一個字符指定一串二進制數的行為就叫做“編碼”,ISO(國際標準化組織)的一個下屬機構和Unicode Consortium(統一碼協會)負責這個標準的制定工作。

身份证上的人名、地名为什么打不出来

2

電腦顯示漢字的過程

電腦顯示漢字的過程大概如下

<table><tbody>

1

電腦讀到一串數據,首先判斷是否為文本數據;

2

若是文本數據,則根據讀到的數據調用相應字體文件中儲存的字形;

3

經一系列渲染操作,字體文件中以數據形式儲存的字形被顯示到屏幕上,起到傳遞信息的作用。

/<tbody>/<table>身份证上的人名、地名为什么打不出来

以Windows10系統為例,它的系統字體文件一般保存在C:/Windows/Fonts路徑下,在顯示字符時,系統就會調用這裡不同的字體文件。這裡需要說明的一點是,簡單情況下,字體文件中,儲存的僅是字形和調用這個字形所需的二進制數據,不必與Unicode標準發生直接關聯。換句話說就是,在實際操作中,可以讓字體文件中的二進制數據和對應字形不符合Unicode標準的規定,如果是這樣的話,上述顯示過程仍可以進行,只不過屏幕上顯示的字形會和其他設備不同,很有可能造成混亂或者誤解,甚至是系統錯誤。再做個不很恰當的比喻:假設某個語言A中同英語詞“fuck”同音的詞含義為“謝謝”,在一個其他所有人都只懂英語的場合,用A語言說“謝謝”就會產生誤解,還很有可能被群毆。

3

輸入法在顯示過程中扮演的角色

從本質上來說,各類輸入法軟件的作用其實就是建立一個鍵盤輸入的字母序列同顯示字符之間的映射。在輸入漢字時,從本質上來說,其實可以粗略理解為由鍵盤通過輸入法軟件“存入”二進制數據,再進行2中顯示步驟的過程。需要強調的是,在實際操作中,輸入法軟件可以“存入”不符合Unicode標準的二進制數據,結果當然也是造成混亂或者錯誤;一般情況下,即由輸入法軟件在輸入過程中“存入”了符合Unicode標準的二進制數據的情況下,設備具體所顯示的基本字形,仍然還要由字體文件所決定。換句話說,如果字體文件中的二進制數據和對應字形不符合Unicode標準的規定,仍無法使用這個字體來“正確”顯示字符;如果字體文件中根本沒有和這串二進制數據對應的字形,那就只能顯示為空白。

4

進一步的理解,以及對第一個問題的回答

有了以上的知識儲備,就可以理解為什麼身份證上的地名、人名專用字電腦顯示不了了。現在出現地名、人名專用字電腦無法顯示的現象的原因不外乎三點:

(1)Unicode標準沒有收錄這個漢字。

漢字文獻浩如煙海,在文獻產生、傳抄、演變的漫長過程中,大量的漢字隨之產生,字形也隨之千變萬化,勢必有一部分相對通行字較罕用的漢字無法被Unicode標準的制定者所瞭解並被收入標準中。這就相當於一個事物在“世界語”中沒有名稱,無法用“世界語”來表述。

(2)使用的設備、軟件或者字體文件沒有跟進最新版的Unicode的標準

一般情況下,從標準的制定、發佈到標準在實際中被廣泛應用一般都要經歷一段並不短的普及期。因為各大廠商首先要對新標準進行初步瞭解,然後還可能要對系統或軟件進行更新以支持新標準,以及字體文件的製作等都需要花費時間。除了時間上的限制之外,由於應用場景不同,不同的設備、系統或者軟件支持的標準範圍也會有不同;對大量設備進行更新所產生的經濟成本也可能造成對最新版Unicode標準跟進的延遲。

這裡要強調的是,製作字體文件異常耗時費力,因為要製作一款美觀的字體,常常需要用大量時間來微調“控制點”:

身份证上的人名、地名为什么打不出来

(3)由於個人知識和技術水平的限制,造成無法輸入

對於一般人來說,輸入手段基本就是各類輸入法,比如拼音、五筆、鄭碼等輸入法,但是大多數的輸入法對罕用字的支持都很差。造成這種現象的原因是多方面的,先不在這裡贅述,後文中還會提及。總之,這就給普通人輸入罕用字造成了障礙。

新聞報道以及網絡求助中的情況大多都屬於第二類和第三類,第一種情況比較少,但也是最難解決、解決需要時間最長的情況,必須一提的是,絕大多數Unicode標準未收字從未見諸新聞報道,解決其輸入問題更是任重而道遠。

身份证上的人名、地名为什么打不出来

讀到這裡,你可能會疑惑,那為什麼第一類字身份證上也可以顯示呢?要回答這個問題,就要引出私用區(PUA,Private Use Area)的概念。

為了能統一編碼世界上所有的文字及符號以及實現一些信息處理功能,Unicode標準共“準備”了17*65536個碼位,其中前面的17是指統一碼標準將這些碼位分為17個集合,每一個集合稱為一個平面(plane)。在12.1.0版本中,共收錄了137,929個字符,主要使用了第0-2平面。上文說道,漢字數量眾多,世界上所有語言的文字和符號就更多,其中必然有一部分字符,是Unicode標準尚未收錄的;

另外總有人會“奇思妙想”,自己創造字符。為了滿足顯示上述字符的需求,Unicode標準劃出了一部分碼位,供用戶自由定義,Unicode標準永遠不會為其指定特定的字符。這部分碼位範圍就被稱為“私用區”。說白了,就是說我在製作電腦字體時,讓這些碼位和任何字形/圖案對應都是符合標準的。如果用“世界語”作類比的話,就相當於“世界語”規定了可以用的字母組合形式有17組,每組有65536個,並且還規定了可以用其中一部分字母組合來代表“各國語言”中有,“世界語”中暫時還沒有的事物。單獨建立私用區的好處在於,Unicode標準更新之後新加入的字符對應的碼位不會和用戶自己定義的碼位衝突,兩者可以永遠“相安無事”。

身份证上的人名、地名为什么打不出来

身份證上之所以能顯示第一類字,就是因為身份證所使用的特殊字體“方正宋體-人口信息”使用了私用區的碼位來表示Unicode標準尚未收錄的漢字。但是,經過上面的介紹我們可以推論出:私用區的碼位所代表的字符和所選用的字體密切相關。“方正宋體-人口信息”這一字體只在公安及民政等系統中通用,而且屬於涉密文件,一般的設備甚至銀行等機構的設備上都沒有這個字體,所以無法顯示。這裡還要說明一點,“方正宋體-人口信息”這一字體其實就是所謂的“公安局字庫”對應的字體文件,這個字體也沒有同最新版Unicode標準保持一致,還在用私用區碼位表示一部分已經編碼的漢字。

下面我們就來談談,如果遇到了無法輸入的字,怎麼解決呢?

如果遇到了一個無法輸入的漢字,首先,們應該先查一查這個字是否已經被Unicode標準收錄,最保險的方法當然是通過之前在第1部分提到的Unicode標準碼錶逐一核對,但這既費時又費力,效率不高,不建議使用。我建議可以通過字海網的

兩分功能查詢(http://yedict.com/)

如果查詢結果有unicode碼,基本上就可以確定為已編碼字,否則則為未編碼字。這個查詢方法是有可能有遺漏的,但概率很小。

身份证上的人名、地名为什么打不出来

如果查詢結果是已編碼字,那麼就可以歸結為第二類或第三類問題。這種情況下,可以通過安裝支持更多字符的字體來解決顯示問題,通過安裝特殊輸入法(比如字海兩分輸入法)、導入自制詞庫或內碼輸入的方法解決輸入問題。所謂內碼輸入,本質上說就是實現Unicode碼同字符之間的轉換。比如,在Windows系統下打開Word,輸入4E00,選中後,字體選擇宋體,按Alt+X,即可實現Unicode碼和字符“一”之間的轉換,其它字符同理。Unicode碼可以在各種網絡字典中方便地查得。d導入自制詞庫的具體方法也可以在網絡上查得,這裡不再贅述,另外,也可以通過字海網聯繫方式中的官方QQ群尋求專業幫助。

如果是未編碼字,可以使用私用區暫時解決顯示問題,比如自己製作一個字體文件或利用他人已經做好的字體。在這裡推薦Andrew West(魏安)先生的Babelstone PUA,囊括了90%以上的未編碼地名用字:

(http://www.babelstone.co.uk/Fonts/PUA.html)

或者也可以通過上述QQ群求助。如果需要在網絡上進行實名認證或有其它需要輸入此字進行信息核對的需求,可以聯繫我查詢此字在字體“方正宋體-人口信息”中對應的碼位,通過內碼輸入的方法輸入後,粘貼至文本輸入框內進行認證,有概率成功。

但這些都只是應急的辦法,最徹底、最理想的解決辦法還是把這個字加入到國際標準中,增加對此類問題的關注度,加速普及。

在Unicode標準字符集中,漢字部分稱為中日韓統一表意文字,簡稱CJKUI,字形完全相同或字形差異不大且字義相通的字在其中擁有同一個碼位。這裡所說的“漢字”是廣義的,包括韓國漢字、和制漢字、壯字等等。負責制定這部分標準的組織是IRG(Ideographic Research Group),有一個一口氣念不完的全稱:

“國際標準化組織和國際電工委員會下屬第一聯合技術委員會第二子委員會第二工作組表意文字小組(ISO/IEC JTC1/SC2/WG2/IRG)”。

一個漢字要進入統一碼標準,首先要由各提交源在一個新擴展區的提交期內提交字形及證據,再經過IRG專家的多輪檢查,最後定稿後還要公示至少兩年。

身份证上的人名、地名为什么打不出来

所謂的證據,一般指含有未編碼字、有上下文的1949年之前的古籍或1949年之後的印刷體文獻整頁圖片或掃描版頁面,或者居民身份證、戶口本、政府開具的證明等可以確實證明未編碼字有編碼價值的資料。

如果個人想要提交未編碼字,可以把符合要求的證據交給相應的提交方,再由提交方提交至IRG;除此之外,原則上來說,每個人都可以向UTC(委員會源)提交相關的提案,再由UTC以委員會的名義提交給IRG,但是分散、水平參差不齊的提案會大大降低工作效率,所以現在能寫出合格提案提交漢字的人仍然不多。

綜上,可以看出,所有的問題都是有解決辦法的。只不過,提交漢字並且編碼的工作比較複雜,流程持續時間很長;也不得不承認,這是身份證上的字打不出來的現象長期無法解決的客觀誘因之一,但並不具有決定性。我認為,出現這種情況的主要原因仍然在“人事”(沒有任何貶義的感情色彩)。在下一部分《人事篇》中,我將對造成這種現象的更深層次的原因進行討論,試圖初步回答文初的最後一個問題。

人事篇

閱讀指南

1. 這篇文章僅代表我的個人觀點。

2. 就我個人來說,我很少會單純地用對或者錯來評判一件事,或者用好和壞來評判一個人,因為我認為大多數所謂的“對錯”其實只是觀念的差異和幸運與否造成的。希望各位不要帶著成見閱讀本部分。

3. 很多人都有一種找“責任人”的思想:出了事情之後必須要找一個人或者幾個人為其負責。但我認為這種行為多半隻能起到給自己找心理安慰的作用,不會觸及問題的根本,也不能真正解決問題。希望讀者在讀本部分時也能摒棄這種想法。

讀過《原理篇》,應該不難理解,解決地名和人名用字顯示問題的根本途徑應該是:

(1)將符合提交要求的證據提交至IRG;

(2)提交的字經一定審批流程後正式編碼;

(3)國標依據最新版的國際標準更新;

(4)各廠商或製作人產出符合最新國家強制標準的產品,並在國內發行;

(5)用戶無障礙地輸入、顯示字符。

其中第(2)步實現後到第(5)步實現前的時間可認為是《原理篇》中所提及的標準普及期。而在(5)步實現之前,最好的情況是國內有一個通用的PUA體系來滿足標準化之前的顯示需求。如此來看,如果上述措施做的得當,是不會出現地名和人名用字顯示問題的——所以,肯定是其中的一個或者幾個步驟出了問題。

首先,我想先介紹一下各領域的現狀,也可以看作是此類問題得不到解決的直接原因。

1

現狀

(1)提交未編碼人名或者地名用字的速度太慢,國標跟進國際通用字符編碼標準不及時。

先看未編碼人名或地名用字的提交情況。《信息技術 信息交換用漢字編碼字符集 第八輔助集(SJ/T 11239-2001)》(下稱《八輔》)[1]收錄的2497個單字中,現僅有1283個字被Unicode標準字符集收錄[2]:其中基本區(URO)266字,基本補充區(URO+)1字,擴展A區(Extention A)108字,擴展B區543字,擴展C區180字,擴展D區1字(「⿰阝顯」, U+2B803),擴展E區127字,擴展F區56字,擴展G區71字,兼容區1字。即使算上在WS2017(未來的擴展H)中提交的280字,到現在為止仍有863字未提交過任何有效證據;這863字中,約有600字還未找到任何其它相關資料。假設以後每個提交期都以WS2017的速度提交[3],仍需3個提交期——從提交證據給IRG到正式編碼一般需要3-5年,這就意味著至少還需要10年才能完成八輔字的編碼工作,而從2001年到現在,已經過去了19年。

這還是沒有考慮《八輔》未收錄的諸多地名用字,沒有考慮人名用字得出的結論。

身份证上的人名、地名为什么打不出来

再來看國標對Unicode標準的跟進情況。國內唯一的現行強制中文字符集標準GB18030的版本仍是2005年發佈、2006年實施的、跟進至擴展B區的GB18030-2005——就在今天(3月10日),CJKUI擴展G區已經正式發佈了。GB18030-2010雖在2018年7月即已完成WTO備案,但至今未正式發佈。這就是國內大多數電腦的系統字體只能支持到擴展B區漢字的原因。

(2) 國內各機構之間不願分享成果,只限於滿足自身需求,且國內通用PUA體系不完善。

如果說在正式編碼之前的時間,國內的通用PUA體系比較完善,對相關人員的輸入培訓到位的話,仍然不會影響到大多數人的生活——這雖然不符合標準,至少實用。但令人遺憾的是,雖然在2004年左右方正公司就基本建成了所謂的公安局字庫,但這一字庫至今仍未能同有需求的各機構共用且同步更新。更令人大為不解的是,嚴格來說,這個字庫還是涉密的,或者說,公開其使用的PUA碼位屬於洩密行為。

2

在這裡還必須說明另一個問題。見於各類報道的生僻字輸入問題有一部分是無法共用公安局字庫導致的,還有一部分是因為相關機構培訓失職或者故意不作為導致的:因為方正的這套字體是配有輸入法的[4],公安部、計劃生育委員會、國家稅務總局、勞動和社會保障部以及國家民政部下屬部門應該都配有這套字體以及輸入法。除此之外,確實有公安局字庫缺收的情況,屬於極少數[5]。

值得注意的是,2017年兩會期間,全國政協委員、中國科學院大連化學物理研究所潔淨能源國家實驗室主任李燦即提交了《關於解決姓名中含有生僻字人員辦證難問題的提案》,對此,工業和信息化部也進行了回應(www.miit.gov.cn)

就在去年(2019年),全國人大代表、江西銅業集團有限公司德興泗洲選礦廠主任工程師謝建輝又提交了“儘快解決姓名中含有生僻字人員辦事難的問題”建議[6]。但迄今為止,公安及民政等部門還是沒有將字庫與其它有需求的機構同步,受影響的群眾辦事依舊很難。相關部門似乎有一種改變的惰性。

表面上來看,這種現象是相關機構的學者或者負責人的保守和短視所致的。拿地名用字來說,在國內,至少測繪和地理信息系統有一套很全的地名生僻字信息、民政及公安系統有一套很全的地名生僻字信息。我曾經聯繫過測繪系統的一位專家,希望能獲得《地名庫外字代碼對照表》全文,聯繫了幾次,他的大意也基本都是:這是我們項目的成果,屬於保密內容,不便全部提供;當初沒有提交的原因則是提交週期太長,於滿足機構自身的使用需求及項目無益。這種現象在國內普遍存在。但是信息共享才能共贏,閉門造車只能雙輸。這種對項目成果過分保密的行為常會導致很多完全不必要的重複性建設以及更多報復性的信息封閉行為,從而形成惡性循環。不論是公安系統或是測繪系統,都完全可以公開生僻字相關的資料,但是十多年以來,沒有一方這樣做。

(3)推動解決人名和地名用生僻字輸入問題解決的社會力量太弱,很多人仍未意識到“堵不如疏”

雖然受到此問題影響的人數可能多至百萬甚至千萬級,但相對於全國人來說,他們仍然是少數。魯迅先生說過,人類的悲歡並不相通——確實,我們很難感受處於不同狀況的他人的情緒。再加上大多數成人在經歷過社會的磨礪後,換位思考的能力和同情心逐漸缺失,更加在意自己生活的安穩,很少有非當事人願意為此事發聲。很多當事人也因為擔心發聲會給自己造成不要的麻煩,或經過長期的努力也看不到任何改觀而放棄,這就進一步削弱了推動解決此問題的社會力量。

另外,還有一種聲音認為應該強制禁止在人名或者地名中使用生僻字,已有的也應該強制更改。且不說這種態度非常不人性化[7],已有的經驗也已經證明這是不可能的:第一次地名普查的時候多地即要求“地名中不能使用《新華字典》和《現代漢語詞典》中沒有收錄的漢字”,但從現在的結果來看,首先是很多地名改了之後已經變成了純符號,文化意味全部消失;其次,

因為中國疆域廣闊、聚落眾多,各地狀況不一,不可能將所有小地名中的生僻字全部改掉。我們已經在一普地名志和現行名稱的對比中發現過:

①沒說改,改了的;

②說沒改,改了的;

③說改了,沒改的;

④啥都沒說,假裝沒看見的;

⑤啥都沒說,確實沒看見的;

⑥正式名稱改了的,民間仍然通用舊字的;

⑦一個縣都給異體A改成異體B,另一個縣都給異體B改成異體A的;等等。

身份证上的人名、地名为什么打不出来

總之千奇百怪的情況都有。可以想到,不一致情況最嚴重的就是自然村級別的聚落名,而現在很多仍保存生僻字地名的自然村地處偏僻,甚至根本沒有文獻資料記載,給資料蒐集造成很大困難。無法輸入地址給本來就相對遠離現代科技和社會的居民們雪上加霜。他們要麼被迫同意更名,要麼承受著本不應有的諸多不便。要讓14億人都把名字改到符合要求,又何其難哉。所以綜上,堵不如疏——我們在大禹時代就已經有了這種哲學。

(4)Unicode標準在國內知名度低,從事漢字編碼工作的專家數量過少,無論是國家、社會還是機構和個人,普遍都不重視漢字編碼工作。

Unicode標準在國內知名度低的原因大概可以歸納為以下三點:

a. 客觀上來說,Unicode標準本身的基礎性、專業性決定了它沒必要,也不可能為很多人所理解。

從基礎性上來說,就好比每個人都會看電視,但絕對沒必要弄清每一個零件的原理;從專業性上來說,要充分理解Unicode標準體系的相關概念,需要很多知識作為基礎——從事漢字編碼工作更是需要海量的計算機科學、語言學、漢字學和信息檢索等方面的知識。同時,越專業、越冷門的東西相對於普通人來說越枯燥,也就越曲高和寡[8][9]。

b. 介紹Unicode標準的漢語資料太少;從事標準制定的專家對標準不夠了解,且對漢譯工作的重要性和緊迫性認識不足。

Unicode標準體系及相關技術或標準在世界範圍內也屬於極冷門的研究範疇,本來參與者也不多,但現在國內的情況是:即使是從事編碼工作的專家,也基本沒有人對Unicode標準體系、甚至是漢字編碼體系有中等程度的瞭解;相關的漢語資料極少,質量普遍偏低,更是出現了《計算機字符編碼——Unicode 與 Windows》這種神級爛書[10]。對絕大多數漢語母語者來說,接受漢語材料包含的信息遠比英語材料要快速、高效得多,所以缺少漢語資料會讓充分理解Unicode標準的人大幅減少,從而通過他們的介紹、科普而瞭解Unicode標準的人更大幅度地減少。所以我認為,介紹Unicode標準的高水平漢語資料缺失是Unicode標準在國內知名度低的根本原因。

可以說,Unicode標準體系是計算機軟件方面最基礎的標準之一,充分理解Unicode標準體系及其理念是在相關領域做出突破性創新的基礎;以Unicode標準為基礎的各種標準和技術正不斷髮展,充分理解Unicode標準體系及相關標準同編程、字體技術、排版技術、輸入法、語言學等的關係已變得十分必要。但令我驚訝的是,國內很多從事字符編碼標準制定工作的人都認為翻譯著述“沒有必要”或“價值不大”。

c. 國內媒體對相關問題的宣傳不夠。

其實,要弄懂Unicode標準的基本原理並不難,但我們接觸到的大多數媒體人貌似不瞭解,也不想了解:很多記者即使不顧正確性,也不願意改變自己的宣傳傾向。比如,經人介紹(十分感謝),天津大學新聞部的老師曾經找到過我,詢問有關地名用字編碼工作的情況。當初做八輔字情調查的時候,我們曾經用開源字體的現成部件拼湊過一款使用了PUA來顯示未編碼字的字體,不論我怎麼解釋,那位老師就是認為製作字體這件事很值得宣傳,對我花費了近一年時間所做的資料總結[11]和提交至各提交源的提案絲毫不感興趣。最後,她再也沒找到過我,我也從沒聯繫過她。這種事情不是孤例,我們甚至都已習慣。

在這裡還要說明一點,宣傳力度不夠也不能完全“歸咎”於媒體人。因為字符編碼國際標準的制定是完全公益性的,所以從事標準制定工作的專家一般都對名利不太感興趣。但換個角度來說,

他們往往不能很好地應對公眾輿論,不適合充當公眾人物,所以一般都會拒絕出鏡。由此便形成了一個尷尬的局面:漢字編碼工作很需要得到宣傳,而能否得到宣傳很大程度上取決於記者,拒絕出鏡又常會打消他們的積極性。

因為Unicode標準知名度低、推動解決人名和地名生僻字解決的社會力量又很弱,所以從事漢字編碼工作的專家數量非常少;國家、社會對此普遍不重視,願意為這些專家提供證據的人也不多。我們中的某位專家在實地調查地名生僻字的時候,甚至差點被當成騙子轟出村去。

很多人都問過我們這個問題:為什麼這個字這麼常見,竟然還沒編碼?為了回答這個問題,不妨假設有1000人每天花10小時在各類文獻裡找未編碼字,每人每分鐘瀏覽500字;僅一部四庫全書即有10億字,其它各類文獻總字數按其千倍計,由此可算得,他們檢查完全部的資料需要約9年。實際上,大陸常態化參與漢字編碼工作的專家不到20人;上文也提到,漢字編碼工作完全是公益性的,參與者不僅無法因此得益,還常常要付出大量錢和時間,所以不可能有人全職做編碼工作;同時,未編碼字的總體罕用度越來越高,尋找資料所耗費的精力也越來越大。如果沒有人向我們提供資料,錯過浩如煙海的文獻中的任何一個非通用字都不足為奇。即使有中華字庫等大型項目支持,漢字提交的速度也不可能太快。

(5)國內相關機構或積極性、專業性不足,或對困難考慮的不夠全面,或是過於依賴某位特定的領導,致使對項目的支持往往不能貫穿始終,從而產生爛尾工程。

這一節,我想以兩個著名項目為例談一談這種情況。

首先,以中華字庫為例:

①其字庫的字體文件佔用了Unicode標準字符集擴展E區之後的部分,因為當時認為CJKUI在擴展E區之後不會再發布新的擴展集,而提出這一論斷的竟然是中國大陸源的前任Editor;

②由方正公司承製的中華字庫第17包(當代人名地名用字收集與整理)也不盡人意,首先,它把書寫習慣引起的微小差異和不小心寫錯的字都收進了字庫;其次,其中過時和不準確之處頗多。

中華字庫項目於2006年立項,原預計5年內完成,結果複雜程度遠超想象。古琴譜、算籌符號和部分少數民族語言文字等至今為止仍未找到有效的編碼方案。

幸運的是,中華字庫項目沒有中途夭折,仍然有一群有理想的人為此工作著。項目組現已完成古籍中漢字字形的整理工作,正在清刪字形、核對錯誤。

但中國·國家地名信息庫就沒有如此幸運了。看到這個字體文件,我雖然難隱笑意,但仍難以相信這個字體是花了那麼多錢的一個國家項目的成果:

身份证上的人名、地名为什么打不出来

它的“審音定字”欄目,收字相比缺字甚至可以忽略不計[12],反映出其整體水平有多糟糕:

那麼,中國·國家地名信息庫何以至此呢?

首先,第二次地名普查因為工作外包等原因,從事基礎工作的人不專業且缺少責任感,造成二普志書與現實脫節。很多二普地名志有海量的錯誤、遺漏,參考價值很低。而中國·國家地名信息庫正是以第二次全國地名普查的資料為基礎編制的。再加上對項目困難預料不足,原項目負責人離開崗位,最後只能草草結項,是非常典型的爛尾工程[13]。

有的學者可能聽到過XX專家在XX會議上談到過更新電腦字庫的事情,而且看起來很重視相關問題。對此,我想說:任何脫離編碼標準談升級電腦字庫的行為都是耍流氓、故弄玄虛。如果有學者大講特講升級電腦字庫的必要性而絲毫不提編碼標準,那隻不過是為了豐富自己的議論喊喊口號而已,實際上根本不懂問題的實質。

(6) IRG部分審批流程條理不清晰、效率不高,在語言學或者漢字學問題上過於糾纏

在現在IRG的日常工作中,“文科思維”有佔主流的趨向,對字義、字理、漢字歸部的討論佔用時間越來越多——我當然不是說文科思維不好,作為國際標準的一部分,審核過程謹慎、嚴格是必須的;對於CJKUI,在編碼之前對字的音、義、源進行考證更是十分必要。

但總的來說,這畢竟是一個計算機科學範疇的國際標準,全用文科思維處理工程技術問題不合適,在語言學或者漢字學上過於糾纏意義不大。拿漢字歸部的問題來說,有的專家認為應優先按字義進行歸部,有的專家認為有爭議的字應一字歸兩部,我認為都不可取。對於計算機處理來說,一個集合到另一個集合的映射是相對簡單的,像Unicode標準這種基礎性的標準更應該在各方面遵守此規則。所以對於生僻字歸部問題,尤其是涉及到字理常人難以理解的壯字、喃字時,我認為有必要:採取略顯“粗暴”、程式化的規則處理,規則以外的特例特審;單獨定義編碼意義上的“部首”,而不必拘泥於本身就存在爭議的漢字學上的“部首”。如果能將這種理念應用於IRG審批流程的其他方面,應該可以在一定程度上減輕IRG的負擔、提高工作效率。

讀到這裡,你可能已經開始歸納:上述各種狀況相互作用,形成強烈的負反饋,或者說,惡性循環,所以導致此問題長期無法解決。但我認為這還不是最根本的原因。

2

地名及人名用字輸入問題無法解決的根本原因

一個人要完成一件事情,至少需要以下三種動力之一:因為利益產生的動力、因為信念產生的動力、被強力逼迫產生的動力。讓各類機構完成一件事情也是類似的,需要不斷的利益驅動力、信念理想驅動力或者是被形勢逼迫產生的驅動力。但現在無論是掌握資源的各機構,或是應該負責的政府部門、字庫有升級必要的各機構彷彿都有一種無形的惰性,這反映出致其行動的三種驅動力均不足。

(1)解決問題所產生的利益不足,甚至沒有利益產生

前文已經說明過,實際受影響的人只佔總人口很小的一部分,他們的力量很弱,所以解決他們的問題獲得的經濟或名譽利益也就很少。對此,某輸入法的負責人表達得非常直白:“用的人少,何必麻煩[14]。”

對於有必要同公安及民政等部門同步字庫的機構來說,以銀行系統為例,更新整個系統所有電腦的字庫,同時可能還要升級硬件和軟件、培訓業務員,其所消耗的經濟成本要遠遠大於因解決生僻字輸入問題所產生的經濟效益。

更多的機構不會因此產生經濟收入,所以從經濟上來說,各機構有更新字庫的惰性。另外,對於掌握相關資料的機構來說,公開資料意味著放棄一部分資料的版權,這些資料最開始也是他們用真金白銀、從無到有積累的,公開其中的生僻字資料,不僅需要支付整理資料所產生的費用,還會在日後喪失一定討價還價的資本。

除此之外,利益因素對IRG專家也不是沒有影響。雖然大多數IRG專家不那麼在乎個人利益得失,但是對於某些IRG專家來說,不足的物質基礎會讓他們更加看中自己在編碼工作中的作用,甚至把這看成是他們實現人生意義的主要方式。他們為此做出的犧牲是值得尊敬的,從整體來看,起到的作用也是非常積極的,但是如果將個人實現的情緒帶入日常工作中,就會與國際標準所應具有的國際性和公益性產生衝突,對純學術氛圍造成潛移默化的影響。

可以毫不誇張地說,國內很多從事漢字編碼工作的專家完全可以利用他們的能力獲得比現在多一倍甚至幾倍的薪酬和名望,但他們仍然甘之如飴。即使是做出這樣的犧牲,他們還是很難被人理解,經常被潑一身冷水。這往往是很“誅心”的,對人內心好的方面傷害很大。

(2)相關機構為人民服務意識的集體缺失

公安部門經常建議不用生僻字取名[15],很多媒體也鼓吹宣傳。這體現的其實是相關機構為人民服務思想的集體缺失。這也很容易理解:當一個規則為人民的利益而改,官員為人民的利益而動,是謂為人民服務;如果制定規則,方便管理而損害人民的利益,是讓人民為規則服務。如果說地名用字問題還可以通過查找資料解決,人名用字除了政府提交外幾無他法。然而現在的情況是,測繪、公安及民政部之間的數據相互保密,甚至有一些屬於“涉密”資料,既不公開也不積極提交編碼。究其原因,不過是利益驅動力不足,又缺乏為人民服務的精神,相關機構就拿保密做擋箭牌躺下而已。在這個問題上,相關機構的負責人躺的太舒服了。

但如果再深究,他們缺失為人民服務的意識是不是隻是他們自身的錯,我認為也不盡然。

(3)言論表達受到了過分限制,很多項目過於依賴單個領導

中國在近代已經吃盡了保守的虧,但這種保守的執念似乎仍在當代繼續。尤其是近段時間,很多國人的思想更趨保守,從而形成改變的強烈惰性。所周知,自由是學術的生命,但國內的很多研究是沒有生命、沒有生氣的,從而也不可能提出有創見性的觀點、無法發現問題。再加上很多當事人因為擔心對自己產生不利影響而不敢發聲,少量敢於發聲的當事人也大多因為其言論得不到有效傳播、看不到改變的跡象而放棄。這就造成了問題似乎並不嚴重的假象——看不到問題,又何談解決?所以還是那句話,堵不如疏。

另外一個人不可能洞察所有領域,如果某個機構的領導者不熟悉相關領域,又沒有開明的態度,往往會導致正確的建議得不到及時採納,產生長期無法逆轉的影響。漢字編碼屬於極冷門研究範疇的子範疇,推動問題解決的聲音又小,所以這個問題很難得到“上級”的重視且不能形成強烈的輿論力量以倒逼相關機構進行改進。

3

結語

我在之前的文章中提到過,漢字與拼音文字不同:對於拼音文字來說,只要編碼少量字母和符號,就可以記述其所有文獻;而漢字數量眾多,很難統計窮盡。換句話說,相比於拼音文字語言,漢字編碼的發展程度會在更大程度上影響今後漢語文本的信息化能力,這又在一定程度上決定了漢語文化圈在信息時代的文化競爭力。只要讓專業人員去做,收集未編碼字並不像想象中的那麼難。即使花個十幾年、幾十年,也比讓百萬人甚至千萬人適應幾十年要好。但就目前的狀況來看,由於第2節中提到的狀況無法在短時間內得到改觀,漢字編碼工作仍會長期得不到國家和社會的重視,地名、人名用生僻字輸入困難的問題在國內仍是短期,甚至是中長期內無法解決的。雖然有很多人在為解決這一問題默默努力,但是他們的力量太小,根本無法改變現狀——比如,本文不會被多少人看到,也沒有多少人願意讀完如此冗長乏味的一篇文章,甚至不能原封不動地發出去。

參考

1.中國電子技術標準化研究所、國家測繪局地名研究所(隸屬中國測繪科學研究院)和合力金橋公司(今北京合力金橋軟件技術有限公司)起草的,中華人民共和國信息工業部於 2001 年 12 月 28 日發佈的字集標準文件,用於滿足地名信息處理的特殊需求。

2.包括其它提交方提交的字形恰好和《八輔》中字形完全一致或者可認為是同一字的情況。

3.我傾盡全力,一年不過也只找到了幾百個地名用字的提交資料而已,這還是既有針對性地清理資料的結果。剩下的字分散出現於更稀見的資料中,這幾乎是不可能的。

4.ab方正字庫——人口信息冷僻字解決方案:http://www.foundertype.com/index.php/About/solvePersonName.html

5.《可信地名外字證據徵集(未竟)》中的「⿲米田米」: https://zhuanlan.zhihu.com/p/44576181

6.http://www.myzaker.com/article/5c8760ac77ac647e524824ea

7.這是上文所說的“人類的悲歡並不相通”非常鮮明的體現,國內同性戀、亞文化群體、特殊性癖者、殘疾人等邊緣人群的處境更是充分體現了這一點。“正常人”們無法以相同的感情迴路感受到他們的喜怒哀樂,所以高傲地視其為異端。

8.問題“有哪些來源奇特的地名?”下我的回答,32贊:https://www.zhihu.com/question/27825456/answer/276125324

9.八輔字情調查中期報告-字數統計、字形差異處理、字體情況: https://zhuanlan.zhihu.com/p/33938594

10.問題“你讀過哪些不值得一讀的爛書?它們分別爛在哪裡?”下Kushim Jiang的回答:https://www.zhihu.com/question/60921684/answer/313001979

11.《八輔字情調查表》: https://zhuanlan.zhihu.com/p/34207648

12.未收字數量統計可以參考上文。中國·國家地名信息庫“審音定字”欄目下絕大多數都是已編碼字。

13.本句信息來源不一定可靠。

14.《【技術貼】快速輸入生僻字》: https://zhuanlan.zhihu.com/p/43378578

15.可以以“警方 不用生僻字取名”為關鍵詞在百度上搜索

地名詞典 地名志條目的標示問題

北京地名羅馬化拼寫的謬誤

天津衚衕命名理據

我國河流名稱變遷的規律及成因

身份证上的人名、地名为什么打不出来

終校:耿曈

審訂:王謝楊


分享到:


相關文章: