維基百科:字詞轉換處理
| ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
| ||||||||||||||||
|
字詞轉換處理即對繁簡字、地區詞的轉換處理,本頁面闡述中文維基在字詞轉換使用中的一些基本要求。
歷史
中文維基百科建立時,雖然只用一個域名「zh.wikipedia.org」,但不少條目都寫了兩種版本,如「法国」、「法國」就曾經是兩條不同條目(国↔國);連繁簡名稱沒有區別的條目(如日本)也都如此(「日本/简」、「日本/繁」)。這方法的好處在於:條目內部沒有繁簡問題,繁體條目使用繁體字、港台詞彙;簡體條目使用簡體字、大陸詞彙,兩者互不干擾。但這種方法卻大大增加了大家的工作量,因為繁簡版本間很快就不同步,只能人手整合繁簡版之差異。
最早的中文維基每條條目都可能有繁簡分立的兩種版本。如何處理繁體簡體並存,中文維基百科必須採取特殊方法,不然就只能面臨繁簡分家的命運,這是中文維基百科自創立以來的迫切問題。
繁簡體之間的對應關係,不是簡單的一對一,而是複雜的多對多。而維基百科所面臨的問題已超出繁簡之間的字型轉換問題。由於大陸、港澳、台灣、馬來西亞及新加坡等地多年來資訊文化獨樹一幟,許多外國譯名以及新生詞語也有非常大的分歧。如台灣所說的「帛琉」,在大陸卻是「帕劳」;大陸使用「打印机」,台灣用的卻是「印表機」。如此案例,屢見不鮮,且大大地超出了英語維基百科上英美詞語之間的分歧。
中文維基百科的繁簡體地區詞問題在Zhengzhu、Shinjiman和許多用戶的努力下,已經得到了初步解決。取消了過去的繁簡分立體系,每條條目只保留一種版本,並透過電腦程式自動轉換繁簡體和地區詞。即不僅僅要處理繁體字和簡體字的問題,還要處理大陸和港台之間詞彙分歧問題,如「帕劳」和「帛琉」也應自動轉換。在以前有繁簡兩版本的文章現在仍然需要人手合併,但目前已經大致完成。
基本要求
編者請不要將含有各種用字的原始碼全部轉換成同一種用字,尤其不要用本百科自動轉換的結果。但是,我們鼓勵用戶在擴充簡體頁面或與中國大陸有關的頁面時,盡量也使用簡體;擴充繁體頁面或與香港、臺灣有關的頁面時,盡量也使用繁體。注意:自動轉換程式可能會輸出很多錯誤結果。
轉換技術
技術上,維基百科的字詞轉換有四層:其一是MediaWiki內建的轉換表ZhConversion.php,供各維基計劃全域轉換;其二是[MediaWiki:Conversiontable]定義的簡繁和地區詞轉換表,供中文維基百科本地全域轉換;其三是各公共轉換組,供主題領域相同和相似的條目統一轉換;其四是各條目內設置人手轉換,供該條目單獨使用。其中,公共轉換組和條目內人手轉換人人均可編輯,而修改本地轉換表則需管理員權限,修改全域轉換表需要向MediaWiki版本庫提交代碼。因此,如欲新增或修復全域及本地全域轉換,一般用戶需在維基百科:字詞轉換申請,交由管理員協助處理。
繁簡與地區詞轉換分開
「繁簡轉換」的意義應只是轉換字體(如簡體「打斗」會正確轉成繁體「打鬥」),而地區詞轉換旨在為中國大陸、台灣、新加坡、馬來西亞、香港、澳門地區的中文用戶提供貼近其語言習慣的轉換模式。其中,中國大陸(zh-cn)、新加坡(zh-sg)與馬來西亞(zh-my)的地區詞為簡體中文;台灣(zh-tw)、香港(zh-hk)與澳門(zh-mo)的地區詞為繁體(正體)中文。
目前維基系統用簡體轉換表、繁體轉換表來處理繁簡全域轉換,用中國大陸轉換表、港澳轉換表、新馬轉換表、臺灣轉換表來處理地區詞全域轉換。
原先地區詞的分歧,納入簡繁轉換全域系統處理,但其後發現這做法產生不少問題:
- 地區詞與繁/簡體並無必然關係,正如「香港繁體區」的人一樣能以繁體書寫「大陸簡體區」常用的詞彙。
- 維基百科的簡繁轉換系統,與其他維基姊妹專案共用,如果簡繁轉換系統包含地區詞彙替換,可能會使其他維基的轉換不準確,例如不需要地區詞轉換的維基文庫。
- 自動轉換過程會出現「失誤」,如繁體「數位人士」,轉簡體會變「数码人士」,要以其他技術解決,難以編輯。
全域轉換是最方便快速的轉換處理方式,但也較易過度轉換,基於以上各項理由:
- 繁簡轉換除了一些轉換後出錯的詞彙外,都應當進入全域轉換中,盡可能不要人手轉換繁簡;
- 而地區詞轉換可能會對全域轉換造成失誤,應儘可能人手轉換,除了穩定和使用廣泛的地區對應詞彙,儘可能不要進入全域地區轉換。
即:對手動轉換,應當主要用於地區轉換,對全域轉換,應當主要用於繁簡轉換。
繁簡處理
用繁體或簡體建立的文章,標題必須是全部為簡體或繁體字,如果標題繁簡混雜,如「中國历史」,則無法自動轉換。
所有的簡繁轉換應當納入全域轉換管理(zh-hans↔zh-hant),遇到有繁簡體的轉換出現問題,應到Wikipedia:繁簡體轉換請求反映。
對於進入全域轉換後出錯的詞彙,可用以下地區詞人手轉換方式,用{{NoteTA}}或相關模板在出錯頁面改正。
地區詞處理
公共轉換組
在主題、領域相同和相似的條目,須轉換的內容大同小異,可以為這些多條條目要用的共同轉換字詞單獨建立轉換組。在頁面模板指定組名,以共用規則轉換地區詞,所有應用該公共轉換組的頁面都不用單獨維護,達致同步維護的目的。公共轉換組的方便程度處於全域轉換與全文轉換之間,而過度轉換程度也處於兩者之間。