Google翻譯

多语种机器翻译服务

谷歌翻譯(英語:Google Translate)是一項由Google於2006年開始提供的翻譯文段及網頁的服務[3]。與其他網站巴別魚美國在線雅虎使用的SYSTRAN引擎不同的是,Google使用自己開發的翻譯引擎。至2015年6月,Google翻譯每天需要處理超過10億筆字詞[4]。2016年,Google翻譯正式於英語-拉丁語翻譯中引入Google神經機器翻譯系統,並已於2017年3月前成功將其拓展至所有語言上[5]

Google翻譯
網站類型
機器翻譯
語言#翻譯語言
持有者Google
創始人Google
網址translate.google.com 編輯維基數據鏈接
商業性質
註冊
推出時間2006年4月28日,​18年前​(2006-04-28統計機器翻譯[1]
2016年11月15日,​8年前​(2016-11-15神經機器翻譯[2]
現狀活躍

Google翻譯提供即時翻譯功能(即時輸入即時翻譯),使用者可以在左邊的輸入欄位輸入文字,翻譯結果會即時在右邊的結果框顯示。將鼠標移到翻譯結果文字上可以看到其對應的原文。此外,Google翻譯亦提供朗讀功能(包括原文和譯文),使用者亦可查看中文拼音日文羅馬字、及韓文似,Google翻譯亦有其自身功能侷限。雖然用戶可以通過其幫助來大致理解以外文書寫的文章大意,但Google翻譯服務無法提供準確的譯文,也不能提供可用於出版的內容,例如,它經常會不依據上下文來翻譯詞彙,而且會在翻譯時不遵守語法規則,這是因為其機器翻譯算法與傳統的基於語法分析的算法不同,採用的是基於統計分析的算法。而Google翻譯的質量也與語種有關,當源語言是一種歐盟語言,而目標語言是英語時,往往質量較好。2010年的分析顯示,法語到英語的翻譯相對準確[6],2011年和2012年的分析顯示意大利語到英文的翻譯同樣相對準確[7]。2021年,加州大學洛杉磯分校醫學中心(UCLA Health)的一項研究表明,英語翻譯至西班牙語的準確率有94%,英語翻譯至亞美尼亞語的準確率只有55%[8]。然而,當所翻譯的文本較短時,其他規則法機器翻譯(rule-based machine translation)卻表現得更好,這在中文到英語的翻譯中尤為明顯[6]

世界各地Google翻譯朗讀使用的英語口音
  英國英語(女聲)
  美國英語(女聲)
  大洋洲口音(女聲)
  印度口音 (女聲)
  無Google翻譯服務

使用較廣泛的語言都有「朗讀」功能,對多中心語言而言,朗讀採用的口音取決於所在地區。

方法

Google翻譯採用的翻譯方法稱作「統計機器翻譯」,具體而言,採用的是基於Franz-Josef Och參加2003年美國國防部高級研究項目局(DARPA)的機器速度翻譯競賽時獲獎的研究成果。Och現在領銜Google機器翻譯小組。

根據Och的說法[9],若想要開發一個可用於翻譯一對全新語言對的統計機器翻譯系統,必須做好如下的數據基礎蒐集才能有保障:一個擁有百萬的單字數量級別的雙語文本語料庫(或者其平行庫集合),以及屬於這兩種語言的單語語料庫,各自得擁有十億以上的單字。然後,用於翻譯這一對語言的機器翻譯結果就會通過這些數據產生的統計模型而得出。

為了獲取這種海量容量的語言學資料,Google採用了聯合國文檔作為語料庫內容來源。[10]由於同樣的一份聯合國文檔通常會有屬於六種聯合國官方語言的譯本,因此,Google如今就擁有了一個相當於經人工翻譯了兩百萬單字的七種語言的語料庫。

而這一點很可能就是Google翻譯之所以一開始專注的是開發英語阿拉伯語中文之間的翻譯系統,而非英語和日語或英語和德語這兩對語言之間的翻譯系統的原因。因為阿拉伯語和中文屬於聯合國六種官方語言,而日語、德語不是。

翻譯語言

目前Google支持翻譯249種語言。(按開始提供的時間順序排列)

2008年5月以前

2008年9月25日開始

2009年1月30日開始

2009年6月19日開始

2009年8月25日開始

2010年1月25日開始

2010年5月13日開始[11]

2010年9月25日開始

2011年6月21日開始[13]

2012年2月22日開始

2012年9月開始

2013年4月開始

2013年5月開始

2013年12月開始

2014年12月開始

2016年2月開始

2020年3月開始

2022年5月開始

2024年6月開始

2024年10月開始

停止開發的語言

  1. 盧歐-阿喬利語(Luo)(Acholi 阿喬利語)
  2. 奧里貝什文英語Aurebesh(2015年11月推出,2016年2月刪除)

有朗讀服務的語言

機械朗讀

人聲朗讀

女聲

男聲

[16]

整合

瀏覽器

劃取翻譯功能是現代瀏覽器的重要基礎功能,翻譯的集成意味着打破文化壁壘,Opera和Firefox的翻譯插件亦是利用谷歌翻譯API作為擴展程序的核心外部接口。不過當下許多瀏覽器廠商,在瀏覽器大戰背景下,出於激烈競爭,已經做出了一站式服務,例如Windows10中自帶的MicrosoftEdge,微軟專門為此定製了瀏覽器插件版的微軟必應翻譯。

字典軟件

開發者可以利用谷歌提供的API,對軟件集成聯網翻譯功能。這些軟件通常是通過集成翻譯功能,實現對原有用途的用戶需求滿足,所完善而來。例如閱讀軟件、在線資料搜索時集成的WebJS小程序,由於信息技術的普遍應用和入口之爭以及成熟度,目前已不再有着壟斷地位,也就不存在增加翻譯功能需要收費或是插廣告,除非是態度問題,否則一般會作為硬性標準。

掌上翻譯程序/電子詞典

當今智能手機和平板電腦平台上,亦有很多基於Google翻譯而衍生成的翻譯軟件。不但在今日動則幾十M的軟件膨大趨勢下做到了體積小巧,而且可以下載離線字典調用,甚至可以翻譯屏幕上光標停按的部分。

爭議

中文政治類誤譯事件

中文谷歌翻譯曾多次在兩岸關係中國內地與香港關係等政治類議題上出現誤譯,引發爭議。

2006年、2007年,谷歌翻譯相繼出現「辱華」翻譯,「I thought this was shame(我認為這是一個恥辱)」被誤譯為「我認為這是中國的恥辱」,「物極必反」被誤譯為「Taiwan independence(台灣獨立)」。[17]

2012年,有網友發現「Taiwan is not a part of China(台灣不屬於中國)」被誤譯為「台灣是中國的一部分」。若將句中的台灣換成其他國家,誤譯同樣成立。另外無論輸入「Diaoyu Islands is not a part of Taiwan」或「Diaoyu Islands is not a part of Taiwan」,均會出現「釣魚島屬於台灣」。[18]

2018年,谷歌翻譯在「A比B厲害」這一類句子的翻譯上出現錯誤,「中國比台灣厲害」被翻譯成「China is worse than Taiwan」,即「中國比台灣差」[19][20]

2019年香港反對逃犯條例修訂草案運動期間,網友發現「so sad to see Hong Kong became China(很難過看到香港變成中國)」被誤翻譯為「很高興看到香港變成中國」。網友猜測有組織對谷歌翻譯進行攻擊,從而影響翻譯結果。[21]

2020年,台灣網友指谷歌翻譯即使在選擇繁體中文的情況下,仍會出現較多中國大陸習慣用語,如「President Tsai Ing Wen(蔡英文總統)」竟被翻譯成「蔡英文主席」。同樣的錯誤在微軟翻譯中也有發生。有台灣網友擔憂台灣習慣用語會因翻譯軟件流行而被大陸習慣用語取代。[22]

2021年1月,有網友發現「China breaks promise(拉)」被誤譯為「中國信守承諾」。但將中國替換成其他國家後並不會出現錯誤翻譯。[23]

2021年11月26日,有中國大陸網友發現,在谷歌翻譯的英文翻中文程序中,在英文對話框輸入「艾滋病毒」等相關詞彙,對應的中文翻譯就會出現惡毒攻擊中國的詞彙[24]。該消息經部分媒體及安徽團省委的微博發布後,一度登上微博熱搜,並導致大批中國大陸網友在評論區表示抗議,稱該事件為「人為導致」,也有網友在驗證後發現部分結果還出現攻擊美國、俄羅斯等國的詞語。同日晚間,Google官方微博@Google黑板報先是在北京時間22:03發布微博,表示「我們已經了解到Google翻譯出現的問題並正在解決。」隨後在23:14分,Google在微博上表示問題已經解決,並稱「Google翻譯是一個自動翻譯器,通過數百萬已有翻譯的模式為用戶找到最佳翻譯,然而有些模式會導致錯誤的翻譯。」[25]而有網友在驗證後表示,該事件疑似為有預謀及通過機械學習等行為操縱的行為,所謂「辱華」流程的驗證邏輯與用戶的正常使用習慣不同,該次事件與2009年谷歌涉黃事件之中出現「兒子母親不正當關係」等「涉黃」聯想詞的行為類似[26]

俄文誤譯事件

2022年4月9日,據多家俄羅斯媒體報道,在谷歌翻譯的英文翻俄文程序中,在英文對話框中輸入詞組「親愛的俄羅斯人(dear russians)」後,程序會建議將該詞組替換成「死去的俄羅斯人」,並且在翻譯後的俄文對話框中該詞組中的形容詞「親愛的」會被替換成「死去的」,但是在翻譯該詞組中帶有其他國家的名稱時,則沒有出現上述錯誤。[27]目前Google已糾正該錯誤。

於中國大陸之現狀

2014年5月31日起,Google所有服務(各個IP段)在中國被大規模干擾至今[28],但因為翻譯及地圖網頁版服務有域名後綴為.cn的入口,並且使用了專門設立在中國境內的服務器和IP地址,所以翻譯及地圖網頁版仍然能正常服務。

2017年3月29日起,中國大陸用戶可以直接使用Google翻譯而不需要使用代理。在此之前,翻譯需使用代理而無法直接翻譯,但下載離線翻譯包後可使用離線翻譯進行翻譯。[29][30]

2021年9月初,大量用戶表示谷歌翻譯app在不使用代理的情況下僅可使用轉錄,但網頁版還能正常使用。[來源請求]

2022年9月26日,谷歌中國搜索頁面到Google翻譯的鏈接被移除[31]。9月29日,Google將位於.cn域名的Google翻譯網站關閉,只留下一個到.hk域名的跳轉頁面,並像搜索頁面一樣標記「請收藏我們的網址」[32][33],這意味着Google翻譯服務已不在谷歌中國的網站上提供。9月30日,一名Google發言人告訴TechCrunch關閉該服務的原因是「使用率低」[34][35]。這一變化影響了中國用戶的文檔查看器KOReader等應用程序的翻譯功能,以及Chrome的內置翻譯功能[35][36][37]

彩蛋

Google翻譯曾經內置有一個小彩蛋,在輸入特定文字後讓程序朗讀,可以輸出Beatbox的效果。[38]目前該彩蛋已經移除。

參見

參考資料

  1. ^ Orch, Franz. Statistical machine translation live. Google Research Blog. April 28, 2006 [December 1, 2016]. (原始內容存檔於2017-03-20). 
  2. ^ Turovsky, Barak. Found in translation: More accurate, fluent sentences in Google Translate. The Keyword Google Blog. November 15, 2016 [January 11, 2017]. (原始內容存檔於2017-04-07). 
  3. ^ Google Translate. [2019-01-24]. (原始內容存檔於2016-02-14). 
  4. ^ 世界滿溫情~Google日翻1千億字 翻最多的竟是我愛你. ETtoday新聞雲. 2015-06-24 [2015-06-27]. (原始內容存檔於2019-12-11). 
  5. ^ See which features work with each language. [July 9, 2017]. (原始內容存檔於2021-01-12). 
  6. ^ 6.0 6.1 Comparison of online machine translation tools. (原始內容存檔於2011-02-10). 
  7. ^ Microsoft Bing Translator and Google Translate Compared. [2013-08-29]. (原始內容存檔於2013-11-07). 
  8. ^ 谷歌翻译大型翻车现场:请服用“反坦克导弹”来缓解疼痛. [2021-03-20]. (原始內容存檔於2021-04-19). 
  9. ^ 於2005年機器翻譯峰會上的主旨演講
  10. ^ 存档副本. [2009-01-06]. (原始內容存檔於2021-01-18). 
  11. ^ Five more languages on translate.google.com. Google. 2010-05-13 [2010-10-11]. (原始內容存檔於2016-05-27) (英語). 
  12. ^ Veni, Vidi, Verba Verti. Google. 2010-09-30 [2010-10-11]. (原始內容存檔於2020-11-09) (英語). 
  13. ^ Google Translate welcomes you to the Indic web. Google Translate Blog. [2020-10-10]. (原始內容存檔於2020-12-30). 
  14. ^ Tutmonda helplingvo por ĉiuj homoj. Google. 2012-02-22 [2012-03-17]. (原始內容存檔於2016-03-05) (英語). 
  15. ^ 时隔四年,谷歌翻译新增5种支持语言:维吾尔语在列. IT之家. 2020-02-27 [2020-03-21]. (原始內容存檔於2020-03-21). 
  16. ^ Google Text-to-Speech AI. 
  17. ^ Google翻译惹上“台独” 将台湾与中国并立. donews. [2021-12-09]. 原始內容存檔於2007-05-09. 
  18. ^ 谷歌翻譯:釣魚島是台灣的. 自由時報. [2021-12-09]. (原始內容存檔於2022-04-21). 
  19. ^ 谷歌翻译超低级错误让“台独”乐傻:谷歌偏爱台湾. 新浪. [2021-12-09]. (原始內容存檔於2022-04-06). 
  20. ^ 「中國比台灣厲害」英文怎麼說 Google小姐偏心愛台灣!. 自由時報. [2021-12-09]. (原始內容存檔於2022-04-21). 
  21. ^ 難過變高興?Google翻譯香港情勢 疑遭「天朝網軍」惡搞. 自由時報. [2021-12-09]. (原始內容存檔於2022-04-21). 
  22. ^ 被統一了?小英總統變「主席」 Google翻譯滿是中國用語. 自由時報. [2021-12-09]. (原始內容存檔於2022-04-21). 
  23. ^ 網瘋傳:China breaks promise被Google翻成信守承諾. 自由時報. [2021-12-09]. (原始內容存檔於2022-04-21). 
  24. ^ 丁潔芸. 谷歌翻译系统出现恶毒攻击中国词汇,网友怒斥“真恶心!”谷歌回应. 環球網. [2021-11-27]. (原始內容存檔於2022-04-21). 
  25. ^ 谷歌回應在線翻譯出現辱華詞語:翻譯模式導致錯誤的翻譯. 俄羅斯衛星通訊社. [2021-11-27]. (原始內容存檔於2021-11-27). 
  26. ^ 存档副本. 微博. [2021-11-27]. (原始內容存檔於2022-04-21). 
  27. ^ 把“亲爱的俄罗斯人”翻译成“死去的俄罗斯人” 谷歌:已纠正. 環球網. [2022-04-12]. (原始內容存檔於2022-04-21). 
  28. ^ Google透明度報告(資訊公開報告). Google. 2014-05-31 [2014-07-08]. (原始內容存檔於2017-05-15). 
  29. ^ 不翻墙也能用了 谷歌翻译优化了中国用户体验. [2017-03-29]. (原始內容存檔於2017-03-30). 
  30. ^ 等了八年!谷歌这项重磅服务今天终于可以用了!. [2017-03-29]. (原始內容存檔於2017-03-30). 
  31. ^ 移除前:26日5:58的存檔,存檔於網際網路檔案館(存檔日期 2022-09-26)
    移除後:26日9:26的存檔,存檔於網際網路檔案館(存檔日期 2022-09-26)
  32. ^ Google疑似关闭了Google翻译的中国站点. Solidot. 2022-09-29 [2022-09-29]. (原始內容存檔於2022-09-29). 
  33. ^ Google跳转页面. [2023-09-09]. 原始內容存檔於2022-09-29. 
  34. ^ Kyle Wiggers. Google appears to have disabled Google Translate in parts of China. TechCrunch. 2022-09-30 [2022-10-01]. (原始內容存檔於2022-10-01). 
  35. ^ 35.0 35.1 ugmbbc. 因使用率过低 Google Translate不再向中国区域提供翻译服务. 中文業界資訊站. 2022-10-01 [2022-10-01]. (原始內容存檔於2022-10-01). 
  36. ^ 蔡苡柔. Google翻譯停中國版服務、引導至香港區 「谷歌」最後功能告別. 香港01. 2022-10-03. 
  37. ^ 唐正. “Google翻译”停止在中国区域服务. 新唐人電視台. 2022-10-03 [2022-10-06]. (原始內容存檔於2022-12-02). 
  38. ^ Aamoth, Doug. Check Out This Google Translate Easter Egg. Time. [2019-09-25]. (原始內容存檔於2018-05-04). 

外部連結