說明討論:繁簡處理/技術方案

由LovelyA72在話題兩個測試頁面全廢了上作出的最新留言:6 年前

實現機制

最好用 ANSI C 來寫一個 lib,做成一個開源的項目,並提供與各種語言的接口,比如 PHP、Python 等。算法嗎,可以考慮用樹來實現。--Xyb 02:42 2004年9月9日 (UTC)

基於轉換表的轉換程序是相對簡單的,用PHP就可以。問題是轉換表本身。但是如果是基於上下文的智能轉換就領當別論。我想我們的目標是前者吧?Zhengzhu 03:00 2004年9月9日 (UTC)

對於這類問題,通常的方法可以分為這樣四種

1.字到字的轉換表

 优点:非常简单,转换表的制作也很容易完成
 缺点:不能解决头发、皇后这样的问题。
       也不能解决大陆、台湾用语习惯不同的问题(这个问题是否应在繁简体转换中一并解决,还有待商权)

2.詞到詞的轉換表

 优点:1的自然发展,同样是比较简单容易操作的
 缺点:汉语中词的概念不像西方语言那样明显,主要体现在几个方面:
        (1)汉语中语义的基本单位不是词,而是字,单字词在汉语中占了很大比例,对于单字词来说,
            词到词的转换和字到字转换没有什么区别,
            举个例子:比如做姓讲的“种”,和“種子”的“種”,从“种”来看你可以把水浒传里的
            “延安府老种经略相公”,“老种”作为一个词加入规则,但如果另一篇文章中提到了“种某某”,
            你就不可能把古往今来所有姓种的人都加入规则;从“種”来看,你可以把“種子”“品種”“種类”
            加入规则,但你没法把所有作为单字词出现的種都加入规则:“这三種種子的大小各不相同”“谁来给
            加个種啊?”(引自某bt论坛)
        (2)汉语中大部分词的构成是很灵活的,可以很容易的组出新的词,比如你可以说“種马”是一个词,
            还可以有“種猪”“種羊”,但是“種鸟”呢?鸟就不可以配種吗?现在养鸵鸟的人可是很多的欧!
            类似的词还可以造出无数。
        (3)汉语在书写中是不区分词的边界的,所以就有了前面提到的“人体内存在很多微生物”和“人体記憶體
            在很多微生物”这样的问题。
         即使我们讨论的不是汉语,而是英语法语这样的语言,要在词一级的层次上完全确定意义也是做不到的,
         在句子的层次上也一样不行。

3.根據上下文,但不分析語義的轉換

 可以根据一些句型结构这样的模式,进行匹配,或者根据统计规律来提供转换的参考
 比如:一个用逗号隔开的短语,开头是“在”,结尾是“后”,那么可以判断这个“后”多半是“後”而不是“后”
 再比如:如果上下文中出现很多“门”、“纲”、“目”、“科”、“属”这样的词,那么句中出现的“种”很可能
         就是“種”
 优点:比2更进一步,准确性可能更高
 缺点:程序实现,和构造规则的难度都较大

4.在理解語義的基礎上進行轉換

 更进一步的分析,比如加入词性,词汇搭配,等等,直到完全抽取到全部的语言信息,从语义的层面进行分析
 优点:理论上说是可能的,也是唯一有可能完全确定一个字的意义(也决定了写法)的方法
 缺点:难度非常大,搞成之后那个图灵奖,当上著名大学终身教授应该是顺理成章的
       还要说一句的是,中文的句式很灵活,很少固定的搭配和句型,一个词(字)的意义很多,多数词都有
       多个词性

我們現在所採用的當屬第2種,在效果、難度、效率之間是一個比較好的折中 但如上面所講的,這樣的方法並不足以解決全部的轉換問題 因此,我認為我們的目標應該是,用詞轉換表提供一種簡單高效容易操作的轉換,並解決大部分的繁簡問題 而以「zh-cn...zh-tw...」解決相對不具有普遍性的問題

--Soliton_Z 14:08 2004年12月16日 (UTC)

測試站

我在[1]放了個測試站,歡迎大家去試試。目前實現的基本思想類似於Wikipedia-l 上的一個貼子,[2],也在Wikipedia talk:繁簡處理的討論中提到過,大致如下:大部分文字在伺服器端自動轉換,不能自動轉換的用wiki標記指明如何轉換。Zhengzhu 02:54 2004年9月9日 (UTC)

Shizhao 提到 Wikipedia talk:繁簡處理/檔案5#我來提個解決方案,我覺得有一定的道理。但是,我覺得那樣會造成繁/簡用戶的不對稱。另外,完全自動的轉換總會有問題,所以加wiki標記似乎不可避免。Zhengzhu 02:54 2004年9月9日 (UTC)

不對稱是什麼意思?那個方案比較靈活,一般用戶隨時都可以增加新的詞彙。--百無一用是書生 (Talk) 03:18 2004年9月9日 (UTC)
簡體用戶和繁體用戶的工作方式不一樣。簡體用戶通過更改轉換規則來改正錯誤,繁體用戶則通過改變條目文字來改正錯誤。加wiki標記則是雙方都是通過改條目文字來改正自動轉換的錯誤。Zhengzhu 03:32 2004年9月9日 (UTC)

Xyb 提到這個方法比較麻煩,尤其對於新手,因為有一個新的wiki標記需要學習。不過,我認為這其實是該方案的優點:新手(假設是簡體用戶)寫作可以完全不管繁簡互換的問題,只用自己習慣的中文(簡體)書寫。更有經驗的繁體用戶可以再改正少量的自動轉換錯誤。而且,我設想如果轉換表里沒有的對應關係,應該是要有至少一個簡體用戶和一個繁體用戶合作才能發現。

Zhengzhu的工作非常好,但我不知道你的工作能否和Squid良好的結合呢?--Mountain(Talk) 05:47 2004年9月9日 (UTC)

對Squid了解還很少。從理論上講在server端保持繁簡各一份cache應該是能做的到的。你能提供wikipedia和Squid結合的參考文檔嗎?

條目名稱也需要轉換。另外還要考慮到與以前的兼容性。詞彙的對照表應該是開放性的,這樣才符合wiki和GNU的精神--百無一用是書生 (Talk) 05:51 2004年9月9日 (UTC)

千萬不要忘了這是一個國際性的項目,要考慮到其他語言版本。現在比較好的一點是通過標記可以讓某些文字可以不處理。但是完全手工的進行詞彙的轉換,太繁瑣了,需要更加自動化一些,這也是使用一個繁簡對照表的用意--百無一用是書生 (Talk) 05:56 2004年9月9日 (UTC)

條目名稱的處理好象和文章本體不太一樣,這要再研究。關於詞彙轉換,在程序里,詞彙和單字的處理是一樣的,都是一些utf-8串,只要有詞彙的轉換表即可實現詞彙的轉換。測試站正在用一個很簡單的轉換表。轉換表當然應當是開發性的,但是我覺得沒有必要單獨維護一個轉換表,而是通過程序從現有文章里的手工轉換漸進性地生成:假設一開始根本就沒有詞彙表,只有字的轉換表。那麼在編輯條目時,我們就要手工做所有詞彙的轉換。過了一段時間,我們可以用程序把整個資料庫過一遍,把這些手工做的轉換收集起來,加到上一個版本轉換表中。如此反覆,我們就會有一個日漸完整的轉換表。當然如果我們一開始就有比較完整的詞表的話會令起始工作好做很多(手工翻譯少些)。我比較喜歡這種漸近性的模式。Zhengzhu 08:11 2004年9月9日 (UTC)
其實想法差不多。我認為建立一個詞彙表比較好。可以讓所有的用戶編輯,這比在文章編輯時進行這項工作方便得多,雖然可能會比較慢--百無一用是書生 (Talk) 08:25 2004年9月9日 (UTC)

我做了個基本的簡-繁詞表, 用在測試站里. 另外, 我把9月8號的資料庫備份放上去了, 這樣大家可以看看實際的效果如何. 請大家踴躍在此提出建議/意見/問題. 具體轉換表過幾天貼上來(這兩天太忙啦...) Zhengzhu 14:00 2004年9月10日 (UTC)

我个人反对'使用内部存储繁体简体由转换表自动生成的方案。使用繁简混排存储加简单的字转换表的方案是首选,转换表只应该做简单的文字级别的转换,不应该涉及词语,不应该涉及上下文,程序应该分下面几步工作:
1. 从数据库读取繁简混排的wiki文本
2. 如果用户语言是zh,则判断是zh-CHS还是zh-CHT,并据此将数据库中对应的混排文本转成相应繁体或简体文本
3. 应用标准wiki标签,同时应用处理繁简问题的定制wiki标签,繁简标签类似上面所说,即对于繁简说法不一致的词语分别给出两个版本
4. 呈现生成的HTML给用户
用户语言可以用过HTTP Request Header的Accept-Languages节获取
新增的标签应该力求易懂,标签是必须加的,不能依赖转换表,不应该有转换表,转换表会导致歧义难以解决。
Yaohua2000 09:26 2004年9月22日 (UTC)

有關資料庫

保留的一個資料庫是什麼版本的?--[[User:Zy26|zy26 (Talk)]] 05:07 2004年9月9日 (UTC)

匿名繁簡體用戶的識別

對匿名用戶可否嘗試按其IP位址識別所在地以推測新來者要使用的版本?

又或可在當眼位置放置一個轉換版本的按扭,當匿名用戶第一次選擇後,我們用cookie將這決定記下,那下次那匿名用戶再來我們就可以提供合適的版本。 --Lorenzarius 13:45 2004年9月13日 (UTC)

我覺得完全按照IP位址來推測似乎有點問題,尤其是對於那些身在海外的華人(我說的海外是指大陸,台,港,澳之外的地區)。作業系統是提供系統函數來判斷當前作業系統的語言版本的(對於Windows,可以通過API函數GetSystemDefaultLCID (VB) 或者 調用Win32函數GetOEMCP() (VC)判斷系統的語言;對於 linux,判斷 LANG,或者 LC_CTYPE 就可以了;至於Mac OS我不太了解)。--Chenhao927 13:18 2004年9月14日 (UTC)
IP確是不大可靠的。我的想法是,我們要盡量在新來者第一次來的時候,就可以提供合適的版本。如果有可靠的方法達到這個目的就最好了。 --Lorenzarius 13:28 2004年9月14日 (UTC)
各位好像都不懂HTTP協議啊,你在瀏覽器的語言設置里選的默認語言不管用麼?好好看看HTTP規範吧,瀏覽器會把用戶默認語言發給伺服器的,根本用不著什麼IP Yaohua2000 09:07 2004年9月22日 (UTC)
對不起,我就是不懂HTTP。我只知道不是所有人都有在他們的瀏覽器設置默認語言。 --Lorenzarius 12:29 2004年9月22日 (UTC)

兼容性問題

現在存在許多同一個條目兩個版本的情況,還有許多繁體重定向到簡體,或者簡體重定向到繁體,將來繁簡轉換時應該如何處理這些情況呢?--百無一用是書生 (Talk) 07:51 2004年9月14日 (UTC)

個人認為應該保持一個版本。對於程序來說,繁簡轉換的時候應該沒有影響。--[[User:Zy26|zy26 (Talk)]] 05:54 2004年9月20日 (UTC)

Squid Cache的問題

Wikipedia Squid Cache的資料請參考:Wikipedia network ideas。--Mountain(Talk) 08:29 2004年9月14日 (UTC)

測試評價

現在的測試中,我認為可以改善一下。現在繁簡用語不同必須每次進行手工轉換,例如克羅埃西亞和克羅埃西亞,比較麻煩。最好能夠修改一次,所有文章中的詞彙都同時轉換。因此,我還是認為做一個開放的轉化表比較好。在轉換表中列出繁簡不同的用詞:比如

zh-cn zh-tw
克羅埃西亞 克羅埃西亞

用戶可以隨時添加新的詞彙到表中。軟體根據表中的詞彙進行轉換。為了防止有人惡意的修改轉化表,可以將他設定為一個特殊頁面,並且只允許管理員來編輯。其他用戶可以在專門的頁面提出繁簡對應的詞彙,經過認可後由管理員錄入到轉換表中。這類似於投票或協商機制,也是維基百科上的一致傳統。

現在的測試有很多bug,例如首頁中的許多內容還是繁簡混雜,並沒有轉換。

能否具體指出bug所在?這樣我好檢查問題出在在哪裡. -- Zhengzhu 12:01 2004年9月15日 (UTC)
Ok, 我找到了,是因為繁簡轉換放在了變量替換之前。已改正。-Zhengzhu 04:49 2004年9月16日 (UTC)

建議將zh-cn克罗地亚zh-tw克羅埃西亞這種標記的作用與轉化表合併,克罗地亚這種標記保留,其中的內容作為不轉換處理。另外還要考慮到,文章中出現的日文漢字不要轉換,如果沒有其他方法,也可以使用上面的標記來標明。--百無一用是書生 (Talk) 07:32 2004年9月15日 (UTC)

或者進一步使用zh克羅埃西亞這種標記,表示其中文字只進行繁簡直接轉換,而不進行詞彙的轉換。即:zh克羅埃西亞在簡體顯示為「克羅埃西亞」,而不是克羅埃西亞,而在繁體則仍然顯示為克羅埃西亞;同理zh克罗地亚繁體顯示為克羅埃西亞,簡體則仍然顯示為克羅埃西亞。這主要是為了讓一些對繁體或簡體閱讀有困難的人來服務的--百無一用是書生 (Talk) 07:41 2004年9月15日 (UTC)

看來我需要對測試站澄清一下:我現在只是想集中解決技術上的問題,主要完成基本的編程工作。具體的轉換表格需要大家合作努力來完善,所以我把現在測試站所用的字表和詞表列在Wikipedia:繁簡處理/技術方案頁上,供大家修改完善(感謝User:TheodoranianUser:Mountain提出的具體建議!已經體現在測試站上了)。
關於「克羅埃西亞」,這僅僅是一個示例,用以說明在轉換表沒有該詞條的情況下,可以如此如此的作手工的轉換。具體什麼詞要或不要轉換可以留到基本技術問題解決完了再決定。
關於「zh-cn...zh-tw...」這種標記,我認為很有必要保留,理由如下
  1. 可以使讓用戶即時更改轉換錯誤,而不需要經過一個「提交新詞」->「等待批准」的過程。
  2. 更重要的是從技術角度考慮:自動轉換的計算複雜度大約是 ,其中 是文章長度, 是轉換表的長度。單看這一數字,似乎複雜度不高。但是,我們還要考慮同時可能會有成千上萬的用戶需要在同一時刻作此轉換,這就會對伺服器造成很大的壓力。對 我們沒有辦法限制,但是我們可以儘量控制 ,即轉換表的長度。如果不用這種手工轉換標記,那麼轉換表會越來越大,對伺服器性能照成衝擊。另外,我們可以予期大部分象「克羅埃西亞<->克羅埃西亞」這樣的問題只會在少數文章中出現,因此對每一篇文章都用包含「克羅埃西亞<->克羅埃西亞」的詞表進行轉換是一種浪費。
關於手工轉換的繁瑣性,我有兩點看法:
  1. 我相信在實際操作中不會象想像中那麼繁瑣。另外,我們可以用技術來降低繁瑣度,比如:
  1. 可以在編輯程序中增加一小段javascript來實現「搜索/替換」的功能,這樣可以方便地進行重複的替換
  2. 可以編寫bot根據以往的手工轉換來對新文章進行「自動的手工轉換」,也就是說,bot會用一張很大很大的轉換表,對新文章進行修改,比如把「克羅埃西亞」改成「zh-cn克罗地亚zh-tw克羅埃西亞」。這其實是將伺服器的在線轉換變為bot的離線轉換,可以大大地減輕伺服器的負擔。
  1. 我在翻閱以前的討論時,經常看見以「繁瑣」來否定某一方案。的確,有的方案會比另一些方案更繁瑣。但是,編寫百科全書本身就是一件極其繁瑣的事情,而wikipedia本身就是利用「人多力量大」的原理來對付這個繁瑣的問題,這也是它成功的主要原因之一。我相信任何繁簡轉換方案都會是很繁瑣的,特別是在我們的資料庫已經小有規模的情況下。但是只要參與的人多了,就不會顯得那麼繁瑣了。
--Zhengzhu 15:41 2004年9月15日 (UTC)
所提的利用bot實現是一個好想法。具體的實施還需要討論。另外,我還是不同意您的一些觀點。我們要看到友好度這一指標,並不是所有的人都熟悉計算機技術,如果能夠自動轉換還是自動吧。--百無一用是書生 (Talk) 02:46 2004年9月16日 (UTC)
觀點不同很正常:) 現階段我建議,技術上可以保留「zh-cn...zh-tw...」標記,具體實施的時候再決定是否一致採用/鼓勵採用/不鼓勵採用/禁止採用。我是覺得使用這個標記可以使轉換工作儘快展開,不用等待最後敲定轉換表。如果以後大家決定要全部取消該標記,寫一個 bot 來完成也是很簡單的。-Zhengzhu 03:31 2004年9月16日 (UTC)

Zhengzhu的工作令人振奮。下面是我的幾點意見:

  • 我覺得應該允許用戶自己在用戶參數裡設定自己的local,對中文用戶來說這個本地信息可能包括:中國、台灣、香港、新加坡等等,然後根據這個本地信息來顯示界面、繁簡轉換;如果沒有事先設定的本地信息,則再跟據瀏覽器提供的系統信息作判斷。
  • 標記「{zh-cn...zh-tw...}」我覺得有點 ugly ,不如「{zh-hans:...,zh-hant:...,zh-sg:...}」顯得規整。
  • 要記住,有時候一篇文章里大部分字都要繁簡轉換,但可能此時還有一些字符必須不作繁簡轉換。我以前建議過用「\X」表示X不作轉換。

--Mountain(Talk) 05:25 2004年9月16日 (UTC)

呵呵,同意。用「zh-cn...zh-tw...」是因為編程簡單而已。不過對不需轉換的字符似乎還是用X比較好,和「zh-cn...zh-tw...」標記比較統一。(可以認為X是在手动字词转换规则中检测到错误的縮寫)。具體用什麼標記可以再詳細討論。我選的主要是因為「-{}」這三個鍵靠得很近。-Zhengzhu 05:44 2004年9月16日 (UTC)
X很好呀。--Mountain(Talk) 06:41 2004年9月16日 (UTC)

如果轉換表按照Unicode碼有序存儲,那麽對於當前不到3000個差異字,每次查找的次數應該不超過13L(L為文章長度)?--Yacht (talk) 11:40 2004年9月29日 (UTC)

界面測試

測試站現已實現繁簡界面的切換。如果檢測的用戶語言是zh-cn(預設值),則使用簡體界面,否則使用繁體界面。具體做法是在資料庫中保留兩個版本的 message key. 比如原來的 mainpage 變成了 mainpage_cn 和 mainpage_tw。相應的 message 函數則根據語言選項決定是用 mainpage_cn 還是 mainpage_tw。這個改動只花了很少時間(quick hack),所以很可能不是很完善。至少有一處,就是 Special:Allmessage 頁還沒做相應修改,仍顯示原來的 message key。如果要使用 Special:Allmessage,可以手工在瀏覽器的 URL 框中加上_cn 或 _tw。我用此法把 mainpage 該成了「cn首頁」和「tw首頁」,僅作示例。另,「cn首頁」和「tw首頁」都改成原來「首頁」的重定向,亦僅作示例。其它繁簡體的界面翻譯來自 mediawiki 1.3.3 版的 LanguageZh.php 和 LanguageZh_tw.php。-Zhengzhu 03:10 2004年9月16日 (UTC)

上訴描述已過時。現在界面切換的臨時解決辦法是用象轉換文本一樣的方法,對界面的字串進行繁簡轉換。--Zhengzhu 13:52 2004年9月17日 (UTC)

先把界面部分完成吧(不包括首頁)。我覺得如果沒有問題,可以與開發者聯繫,將修改的代碼告知。或者將代碼放在meta上,可以有更多的人來討論和修改。其他頁面內容的繁簡問題可以作為下一步的目標--百無一用是書生 (Talk) 06:50 2004年9月16日 (UTC)

另外,現在zh-cn.wikipedia.org , zh-tw.wikipedia.org都重定向到zh.wp。可以把這個加到代碼中。通過zh-cn訪問的用戶顯示簡體,通過zh-tw的用戶顯示繁體--百無一用是書生 (Talk) 06:53 2004年9月16日 (UTC)

有歧義的轉換

Chenhao927Wikipedia:繁簡分歧詞表里加了一條:內存 <=> 記憶體,這令我想起一個小笑話:老師讓學生用「如果」造句,有學生曰:「汽水不如果汁好喝。」象「內存 <=> 記憶體」這樣的轉換就會有這個問題,比如:「人體內存在很多微生物」就會變成「人體記憶體在很多微生物」。這也是必須用手工方法才能有效解決的。-Zhengzhu 13:24 2004年9月16日 (UTC)

這種情況,個人感覺應該在轉換表里加上高優先級的「存在<=>存在」。--[[User:Zy26|zy26 (Talk)]] 21:12 2004年9月16日 (UTC)
如果例子中把「存在」改為「存有」,Zy26的處理方法就又要增加規則。類似問題很難說清,因而我同意強制說明。--冷玉 01:58 2004年9月17日 (UTC)
還是感覺應該增加規則……--[[User:Zy26|zy26 (Talk)]] 07:40 2004年9月22日 (UTC)
理論上講歧義是不可避免的,不管增加多少規則。否則機器翻譯就會容易得多了。目前要提供高質量的轉換隻有用特殊標記。 -- Zhengzhu 01:06 2004年9月24日 (UTC)
特殊標記和特殊規則意思應該差不多……--[[User:Zy26|zy26 (Talk)]] 07:16 2004年9月24日 (UTC)
不知道這裡可不可以分詞,如果分了詞就好多了。Powerpoint的文字演示一般都不是一個字一個字跳出來的,而是一個詞一個詞跳出來的。Burea Acupotter'n 13:19 2004年12月7日 (UTC)

----

最好把zh-tw中的namespace改成英文,這樣與中文版保持一致比較好。--百無一用是書生 (Talk) 07:55 2004年9月17日 (UTC)

另外第一步先讓操作界面改稱繁簡兩種版本的,其他的頁面內容先不要做轉換。讓大家熟悉一段時間以後,有了進一步認識和討論,在進行頁面內容的轉換。另外,應該可以讓Allmessages頁面同時顯示繁簡兩種界面的代碼,並且不做轉換,方便修改和維護。--百無一用是書生 (Talk) 07:59 2004年9月17日 (UTC)

程序原始碼

程序原始碼已進入CVS,請有興趣者參與修改完善!-Zhengzhu 11:03 2004年9月17日 (UTC)

恭喜!中文版只有你一個人有CVS權限--百無一用是書生 (Talk) 11:16 2004年9月17日 (UTC)

最好能夠允許用戶在繁簡體界面之間自由切換--百無一用是書生 (Talk) 11:33 2004年9月17日 (UTC)

太好了,恭喜。--Mountain(Talk) 12:10 2004年9月17日 (UTC)
這是什麼東西?不太懂呢!(請原諒我不是很懂電腦)--虎兒 12:22 2004年9月17日 (UTC)
CVS是一個供不同開發者協助開發一個軟體的系統。見CVS。--Zhengzhu 13:48 2004年9月17日 (UTC)

多謝鼓勵!界面切換是一個普遍的訴求,已經有初始的工作在進行。現在CVS里的代碼有隻針對繁簡體的界面切換,作為一個短暫的解決方法。測試站現在運行的就是CVS中的代碼。--Zhengzhu 13:48 2004年9月17日 (UTC)

用戶參數設置

測試站及CVS中已實現在用戶參數中設定繁簡字體選項,請到測試站註冊以測試效果。-Zhengzhu 19:40 2004年9月17日 (UTC)

參數設置中改變繁簡界面,但是保存後仍然還是原來的界面--百無一用是書生 (Talk) 02:05 2004年9月20日 (UTC)
需要刷新一下才能起作用。 Zhengzhu 03:04 2004年9月20日 (UTC)

好像不起作用呀,連原來起作用的繁簡轉換也見不到了。--Mountain(Talk) 03:32 2004年9月20日 (UTC)

我剛試了試還可以的? 在"language variant"項選,而不是「interface language」哦。- Zhengzhu 04:10 2004年9月20日 (UTC)

"language variant"項選在哪裡?沒找到呀!--Mountain(Talk) 05:42 2004年9月20日 (UTC)

登錄後選「參數設置」菜單,在「用戶資料」欄有一標題為「language variant」的下拉選單。- Zhengzhu 05:58 2004年9月20日 (UTC)
只看到Interface language,沒看到language variant--[[User:Zy26|zy26 (Talk)]] 06:02 2004年9月20日 (UTC)

好像有bug,有些界面是繁體,有些則是簡體--百無一用是書生 (Talk) 06:04 2004年9月20日 (UTC)

已留意到這個問題了。-- Zhengzhu 11:44 2004年9月20日 (UTC)

參數設置中的界面語言(interface language)已經生效,請測試。-- Zhengzhu 07:03 2004年9月22日 (UTC)

現在只是界面的改變嗎?文章內容不改變是嗎?--百無一用是書生 (Talk) 07:21 2004年9月22日 (UTC)
文章內容由「language variant」控制。-- Zhengzhu 07:46 2004年9月22日 (UTC)

"language variant"選項在哪裡呀?還是沒有找到。"interface language"找到了,確實起作用了。--Mountain(Talk) 07:39 2004年9月22日 (UTC)

「language variant」就在「interface language」下面啊 - Zhengzhu 07:46 2004年9月22日 (UTC)
我刷新了好幾遍都沒有看到呀。「interface language」下面只有「更改密碼」。--Mountain(Talk) 07:52 2004年9月22日 (UTC)
我也看不到,只有interface language--百無一用是書生 (Talk) 07:53 2004年9月22日 (UTC)
把瀏覽器的cache清掉試試? -- Zhengzhu 07:55 2004年9月22日 (UTC)
另外請報告你們所用瀏覽器的版本。- Zhengzhu 08:18 2004年9月22日 (UTC)

 

Internet Explorer 6,個人感覺是css的問題--[[User:Zy26|zy26 (Talk)]] 08:28 2004年9月22日 (UTC)
多謝zy26,已找到問題所在。請再試試? -- Zhengzhu 08:34 2004年9月22日 (UTC)
看到Language variant了。--[[User:Zy26|zy26 (Talk)]] 08:39 2004年9月22日 (UTC)

左邊分類(類)索引簡體時候顯示不正確,請協助修改。。。

能不能在資料庫的一個欄位當中保持繁體及簡體兩個版本?

這樣對於搜索,命中率能大一些,對於文章的編輯,可以編輯其中一個版本,另一個版本在存檔的時候自動生成,方便新手。--[[User:Zy26|zy26 (Talk)]] 05:58 2004年9月20日 (UTC)

或許可以把搜尋引擎的代碼該一下,對一個關鍵詞的繁/簡兩個版本分別搜索。這樣可能容易實現些。-- Zhengzhu 12:43 2004年9月20日 (UTC)
現在的搜尋引擎對於中文基本上處於毫無用處的狀態,把漢字按字拆開,什麼都找不到,是應該修改了。--[[User:Zy26|zy26 (Talk)]] 13:05 2004年9月20日 (UTC)
哦? 我不知道有這回事。這會是個挺有趣的問題,先要有一個分詞的程序...就又會有歧意的問題... 這裡有作漢語信息處理的嗎?不知道有沒有其他開源的漢語搜索程序?-- Zhengzhu 16:07 2004年9月20日 (UTC)
分詞的程序都不太成熟,現在的解決方案應該是搜索漢字的時候不要把漢字按字分開,才能使搜索有一點兒意義。--[[User:Zy26|zy26 (Talk)]] 07:43 2004年9月22日 (UTC)

是不是應該處理類似這樣的URL

http://s87257573.onlinehome.us/wiki/index.php?title=%E9%A6%96%E9%A1%B5&lang=zh-cn,直接顯示簡體……--[[User:Zy26|zy26 (Talk)]] 05:58 2004年9月20日 (UTC)

「」和「」

為了保證和現有版本的兼容,是不是可以改成類似標註的文字?

foo
寫成<!--{-->foo<!--}-->
顯示成foo
在手動字詞轉換規則中檢測到錯誤
寫成<!--{zh-hans:-->foo<!--{zh-hant:bar}-->
顯示成foo

或者類似的方法。--[[User:Zy26|zy26 (Talk)]] 06:11 2004年9月20日 (UTC)

可以在代碼中加一個選項決定是否忽略這個標記。-- Zhengzhu 12:44 2004年9月20日 (UTC)
不太喜歡這個標記,標記應該是和<math>,<nowiki>同樣類型的吧。--[[User:Zy26|zy26 (Talk)]] 07:45 2004年9月22日 (UTC)

測試站的Special:Allmessages中的內容部分簡體,部分繁體--百無一用是書生 (Talk) 07:26 2004年9月22日 (UTC)

可能是某些測試把資料庫搞亂樂。關於 Special:Allmessage 該如何處理我還在思考...... Zhengzhu 07:51 2004年9月22日 (UTC)
我覺得這部分的內容不進行轉換,直接是兩個版本,或者如參數設置中一樣,有一個選擇列表,但是管理員只能修改自己語言版本的。--百無一用是書生 (Talk) 08:02 2004年9月22日 (UTC)

一個小建議:使用標記進行詞語的轉換時,可否這樣.無論在標記中輸入繁體還是簡體系統根據用戶的設置自動進行繁簡體轉換。例如繁體用戶輸入克羅埃西亞,在簡體用戶看來是克羅埃西亞,而不是克羅埃西亞。這樣會比較方便用戶的編輯,因為對於繁體和簡體用戶,同時輸入繁體和簡體可能會比較困難。

這樣可能會造成一些混亂:如果克羅埃西亞克羅埃西亞的轉換有需要另外一個特殊規則呢?-Zhengzhu 04:11 2004年9月29日 (UTC)

另外,現在如果不正確使用標記,則頁面完全不顯示標記以內的內容,這樣的話會使頁面無法閱讀,我覺得如果用戶標記使用出現錯誤,應該顯示整個標記的內容,而不是隱藏。--百無一用是書生 (Talk) 09:01 2004年9月23日 (UTC)

已實現,見測試站。-Zhengzhu 04:11 2004年9月29日 (UTC)

現在工作的建議

能不能把界面部分的自動轉換工作完成後,先用到zh.wp中來?內容的轉換下一步再說?這樣也能給大家一個希望呀--百無一用是書生 (Talk) 07:57 2004年9月22日 (UTC)

升級到1.4需要同步吧。--[[User:Zy26|zy26 (Talk)]] 07:59 2004年9月22日 (UTC)
可以先升級到1.3.4呀--百無一用是書生 (Talk) 08:03 2004年9月22日 (UTC)
估計也需要同步,1.3.4測試穩定了麼?--[[User:Zy26|zy26 (Talk)]] 08:08 2004年9月22日 (UTC)

界面轉換涉及的問題比較多,而且也不僅僅是 zh 用戶的訴求,可能要等到 1.4 吧。要給大家個希望,不如在首頁放一個小專欄介紹目前工作的進展? 這樣新老用戶可以知道進度如何,也鼓勵大家多提意見。-Zhengzhu 08:13 2004年9月22日 (UTC)

Mediawiki: namespace

我已將支持Mediawiki: namespace的代碼加入cvs,並已更新測試站。現在的做法是繁體/簡體的界面信息在資料庫中各存一份,在special:allmessages頁看到的語言版本和用戶的界面語言選項一致。因為只有管理員才能對namespace修改,如果大家想測試的話請在此會話,我在測試站給你們加管理員權限。 - Zhengzhu 05:12 2004年9月25日 (UTC)

給我加一個。--[[User:Zy26|zy26 (Talk)]] 05:13 2004年9月25日 (UTC)
已完成。-- Zhengzhu 05:26 2004年9月25日 (UTC)

測試工作

懇請大家多參與測試工作!編寫代碼只是整個工作中的一小部分,還需要大量的測試才能使代碼完善。這很重要,因為目前我添加的功能大部分都是針對zh.wp的,其他開發者和用戶主要關心的是我的代碼不會影響其它語言的工作,因此他們能提出的意見並不多。目前我最需要以下方面的反饋:

  • 字一級的自動轉換有多少錯誤?
  • 詞一級的自動轉換有多少錯誤?(先不考慮有分歧的情況)
  • 目前實現的功能是否足夠支持日後的繁簡合併工作? 若否,還需要哪些功能?
  • 程序運行出現的異常情況(bug)。

謝謝大家-Zhengzhu 05:12 2004年9月25日 (UTC)

  • 波里尼西亞錯誤繁化為波裏尼西亞。「里」->「裏」只應在特定時候才作轉換。一般應作「里」處理。又,台灣的正體字當為「裡」而不是「裏」。
  • 只有簡體字轉為繁體字;但如果條文本身是繁體字,簡體用戶看到的仍然是繁體字,沒有作出對應的轉換。

--石添小草 06:51 2004年9月29日 (UTC)

是「里」一般對應為「裡」,而偶爾對應為「裏」,對嗎? 正體字裡沒有「里」字?
簡體用戶看到的仍然是繁體字:是不是因為沒有刷新cache? 改變繁簡選項後要把頁面重載一次(reload/refresh)才能起作用。請再試試?
-- Zhengzhu 15:55 2004年9月29日 (UTC)
不是,正好相反,繁體中當然也有「里」字,所以不需要特地繁化為「裏」;就算要換,也是換成「裡」,因為台灣不用「裏」的。--密爾希弗拉雪 04:51 2004年9月30日 (UTC)
還有簡體的「只」(only)對應到繁體也是「只」,繁體很少用「祇」了現在;而且光是在首頁,「只」就都被轉換成量詞的「隻」,這是不正確的。我應該到哪裡去幫忙改呢?可否列出所有使用者可以去修改的對照表,包括介面的、繁簡字對應的、用詞對應的……--密爾希弗拉雪 06:03 2004年9月30日 (UTC)
現在的好像是固化在php內部的……--[[User:Zy26|zy26 (Talk)]] 12:45 2004年9月30日 (UTC)
西洋棋里的「後」(王后)轉換成了「後」(先後)。--Alexcn 13:20 2004年9月30日 (UTC)
象這樣的單個字的錯誤只有使用標記來修正了。-- Zhengzhu 14:15 2004年9月30日 (UTC)
「後」這個字是否應該預設不轉,只有這個字放在特殊詞的環境下(表示前後/先後的意思的時候)才轉成「後」呢?大概120個常用的需要轉成「後」的詞。Uuuuu 17:12 2004年10月22日 (UTC)
遊戲:「剩餘」應為「剩餘」--Alexcn 13:31 2004年9月30日 (UTC)

請到Wikipedia:繁簡處理/轉換表校對工作參與轉換表校對工作。我也會在那裡解釋目前程序的工作原理。-- Zhengzhu 13:38 2004年9月30日 (UTC)

多謝你發現這個問題!這是因為該文部分中文文字是用html entity編寫的,而中文轉換發生在html entity轉換之前。我會想辦法解決這個問題。-Zhengzhu 20:05 2004年10月1日 (UTC)
一個簡單的解決辦法就是把原文的html entity改成漢字,見[3]。按理正常輸入的文字是不會被轉換成html entity的。不知道原作者是如何輸入的。可惜作者沒有註冊,只有一個ip地址,無法聯繫。 -- Zhengzhu 20:17 2004年10月1日 (UTC)
可能是Copy過來的,比如在英文維基輸入,會被自動轉換為html entity,再次編輯的時候直接Copy就是這樣了;或者是用FrontPage之類的軟體編輯的網頁,網頁內碼沒有選擇中文的效果。這提供了另外一個思路,對於不需要轉換的漢字,是不是可以轉換成html entity以避免中文轉換呢?--[[User:Zy26|zy26 (Talk)]] 04:56 2004年10月2日 (UTC)
請建立「繁簡體轉換錯誤報告」頁面,測試站的批評指正頁面不能記錄非註冊用戶發表的信息。主站上也都是討論頁面,感覺不知道在什麼地方報告錯誤:)--冷玉 05:12 2004年10月2日 (UTC)
應該在這裡找一個地方吧。--[[User:Zy26|zy26 (Talk)]] 05:21 2004年10月2日 (UTC)
呵呵,建議建立wiki統一的的「錯誤報告和發展建議頁面」,並將「繁簡體轉換錯誤報告」掛在下面,如何?--冷玉 05:33 2004年10月2日 (UTC)
剛發現我們是有Wikipedia:錯誤報告頁的,我會去開一個關於繁簡體轉換錯誤的小節。其實mediawiki軟體有一個專門的網站用來報告錯誤和建議的,在http://bugzilla.wikipedia.org/,可惜只有英文的界面。-- Zhengzhu 02:57 2004年10月3日 (UTC)

標題的繁簡自動轉換

現在測試站已實現文章標題的自動繁體/簡體轉換,請大家前去測試!轉換包括兩部分:

  1. 每篇文章標題的轉換。如繁體用戶點入「價格」頁,將會看到條目標題為價格
  2. 文章內的wiki鏈結也進行自動轉換。如在測試站首頁的「特色條目」欄,繁體用戶會看到「...小吃一般售賣起點低,價格不高...",其中價格會自動連結到簡體的「價格」條目。

Zhengzhu 03:23 2004年10月4日 (UTC) 贊!--[[User:Zy26|zy26 (Talk)]] 11:42 2004年10月7日 (UTC)

zh-hk 和 zh-sg

對 zh-hk 和 zh-sg 的基本支持已經實現,請見測試站。另,用-{}-進行手工轉換的的格式作了小調整。當要對連結等進行轉換時,-{}-標記應放在最外層,如-{zh-hans:[[简体]]; zh-hant: [[繁体]]}-。

我把測試站的代碼和cvs同步了一下。最近cvs的更新較多,所以可能會有一些意想不到的錯誤;-)

- Zhengzhu 14:51 2004年10月8日 (UTC)

維基詞典

目前的方案似乎在維基詞典中存在問題。在維基詞典,繁體字和簡體字都是作為一個單獨詞條存在的,也就是說,頁面中的內容需要自動轉換,但是頁面名稱卻不可以。--百無一用是書生 (Talk) 13:07 2004年10月13日 (UTC)

可以加一個參數設置決定標題是否作轉換。 - Zhengzhu 14:21 2004年10月13日 (UTC)

但是又需要區別對待,對於單個漢字需要區分繁簡體,但是對於詞彙卻不需要區分繁簡--百無一用是書生 (Talk) 16:57 2004年10月13日 (UTC)

內部連接能否自動轉換?

目前的系統能否作到內部連接的自動簡繁轉換?也就是內部連接是用簡體字給出的,而實際上只存在一個繁體字標題的條目,這種情況下能不能實現從簡體字內部連接連到到繁體字條目?還有連接的顏色是紅色的還是藍色的?--hunry 05:23 2004年10月23日 (UTC)

請到測試站測試……--[[User:Zy26|zy26 (Talk)]] 05:25 2004年10月23日 (UTC)
個人感覺應該做到自動轉換,但是目前好像需要增加一個重定向頁。--[[User:Zy26|zy26 (Talk)]] 05:27 2004年10月23日 (UTC)
剛才在那裡測試了一下,可以做到的。真是不錯,希望馬上就能上馬啊!--hunry 07:06 2004年10月23日 (UTC)

參考資料

[4]

關於語境的一點想法

我們現在的討論,基本上是集中在白話文的問題上 但在百科全書中涉及歷史、宗教等問題時,引用文言文也是十分普遍的 對於這樣的內容,不需要畫蛇添足的去做大陸習慣用語和台灣習慣用語的轉換 也不適合用白話文的詞表進行繁簡轉換

於是我想是否可以通過標記的方式,標出這樣的段落,指定用文言的詞表,而不是白話的詞錶轉換

進一步的,我們還可以有明清白話的詞表和規則 討論IT領域問題的詞表和規則 討論政治問題的詞表和規則

這樣一套詞表,我姑且稱之為一個語境

通過指明語境,可以增加轉換的準確性 也降低了設計詞表的難度

再進一步說,可以在文章中增加很多類似的自描述的成分,這對於繁簡轉換這樣的問題,或者是檢索,以及其他需要計算機了解語義的地方都有很大的好處

--Soliton Z 14:31 2004年12月16日 (UTC)

十分同意Soliton 的想法, 多了語境的標示, 可以避免把古文或文言的段落進行轉換. 另外, 若是文章涉及討論繁簡體問題的時候, 也應該有一個語境來避免簡字被轉為繁字, 參見簡體字會發現裡頭全部變成繁體了! 阿牛 07:49 2004年12月23日 (UTC)
可用-{}-標記表示不轉換。詳見Wikipedia:繁簡處理。- Zhengzhu 16:33 2004年12月23日 (UTC)

建議以正體字為主

建議內文以正體字(繁體字)為主。請台灣、香港的朋友將大陸、新加坡朋友的創作先用手工全部轉成正體字。這個過程,可使用輔助軟體幫忙,不過,一定要整篇再一字一字的校正,若仍有疏漏,則請發現的朋友再做小部份修改。但是,原則上只能將簡化字轉成正體字,而不能另做詞彚的轉換 (例如,只將「軟體」轉成「軟體」,不可換成「軟體」),以尊重原創者。

內文都是正體字的話,要通篇轉成簡化字就好辦多了。因為,正體字轉簡化字都是一對一,或多對一;只有少部份的字是一對多,這部份只要再建立詞彚庫,即可正確轉換。例如,乾→干(乾坤、乾隆,不簡化),徵→征(宮商角徵羽,不簡化),藉→借(狼藉,不簡化)。

--Vertex 07:34 2004年12月23日 (UTC)

好麻煩,而且繼續編輯的時候會帶來更多的麻煩。--zy26 (Talk) 05:59 2004年12月24日 (UTC)
繁簡轉換程序本來就是為方便各地中文用戶編輯的,如果強令用繁體編寫還要轉換程序幹什麼?而且這也不符合維基的自由精神。要簡體中文用戶自己用工具作簡繁轉換,可能還不如新版本wiki的轉換功能。我覺得現在只需要完善轉換功能即可。--Alexcn 06:10 2004年12月24日 (UTC)
我覺得現在的繁簡轉換只是在為簡體的使用者服務而已。現在的情況,對繁體的使用者簡直是一件很恐怖的事。因為現在雖然看到繁體字了,可是滿篇的錯字,如何讓人受得了?「乾什麼」「慈禧太後」「中國曆史」.....能看嗎?「乾」沒有「幹」的意思、「曆」沒有「歷」的意思、「後」也沒有「後」的意思,這種半調子的轉換,還不如都轉到簡體。要做繁簡轉換時,自己再用 AlibaBar (IE) 或 同文堂 (Firefox) 轉,這兩個zh-ch:軟體;zh-hant:軟體轉出來的字詞還比較正確--Vertex 14:07 2004年12月24日 (UTC)
請注意,維基百科上面有很多文章都是簡體字編輯的,請不要搞文字歧視。--Shk3 (留言) 2009年8月19日 (三) 04:00 (UTC)回覆
需要大家多校正對應詞彙表--VipUser (聖誕快樂_^o^) 14:09 2004年12月24日 (UTC)

Template:CGroup/Show收錄越多字會令越多文章出錯

已開始在澤田研二#功績條目顯現,MON AMOUR JE VIENS DU BOUT DU MONDE》(我的愛人,我來自世界的盡頭)變成(我的愛人,我來自魔盜王終極之戰) 其他zh-hk例句︰

  • A為B贖罪 - 會變成 - A為B愛·誘·罪
  • 他是一個美國黑幫人物 - 會變成 - 他是一個犯罪帝國人物

我只建議人名才加入TEMPLATE, 而電影則做參考的翻譯條目, 不加入TEMPLATE, 否則很多文章將會嚴重出錯。同時日本藝人又是否有需要加入這個以好萊塢為主的TEMPLATE呢? -- 豬(月利)狂 (留言) 2008年6月28日 (六) 23:58 (UTC)回覆

編輯界面里繁簡怎麼轉換!

如果是大陸人,編輯的是簡體字。台灣人編輯的是繁體字。編輯時沒法轉換啊!

刻意在剪輯界面里轉換會造成簡繁破壞。直接按你用的語言寫就行,顯示給用戶的時候會統一轉換。--LunarShaddowღIvy 2014年4月17日 (四) 01:27 (UTC)回覆

內部連結的簡繁轉換

當大陸簡體標題與主標題不同時無法識別,感覺有點不方便。Zane Tu留言2015年7月9日 (四) 22:33 (UTC)回覆

兩個測試頁面全廢了

點進去一個是404一個是403,請修復一下LovelyA72留言2017年7月26日 (三) 15:43 (UTC)回覆

返回 "繁简处理/技术方案" 頁面。