關鍵詞過濾

敏感违禁词汇系统自动审查过滤

關鍵詞過濾,也稱關鍵字過濾,指網絡應用中,對傳輸訊息進行預先的程式過濾、嗅探指定的關鍵字詞,並進行智能辨識,檢查網絡中是否有違反指定策略的行為。類似於入侵檢測系統的過濾管理,這種過濾機制是主動的,通常對包含關鍵詞的資訊進行阻斷連接、取消或延後顯示、替換、人工干預等處理。

關鍵詞過濾的主要佈置在路由器、應用伺服器、終端軟件上,對應的應用場合主要有網絡訪問、討論區、網誌、即時通訊、電子郵件等。

路由器關鍵詞過濾

路由器閘道器防火牆中設置關鍵詞過濾,對URL、封包進行酌別。可用於對內聯網對外通訊進約束,也可用於互聯網的管理。

對於HTTP等應用層協定,防火長城使用深度包檢測技術實現關鍵字過濾。

應用服務關鍵詞過濾

討論區、網遊、新聞評論、網誌等互聯網應用的伺服器端進行過濾,常用於對色情、暴力、宗教或其它策略要求的言論進行控制。

通常對關鍵詞的資訊不予顯示、替換或轉人工審查。

終端軟件關鍵詞過濾

網絡應用軟件自身附帶關鍵詞列表,對指定關鍵詞進行處理。

QQ(包括QQ遊戲)、VeryCD公司基於官方eMule修改的eMule VeryCD ModEasyMule(官方eMule中無關鍵字詞過濾)、TOM-Skype等中國大陸網絡軟件中,被很多使用這些軟件的網友發現有內容幾乎相同的關鍵字詞過濾檔案。[來源請求]

在2006年,黑客發現 eMule VeryCD Mod 有一個關鍵詞過濾檔案。[1]

同年,有中國大陸黑客發現QQ有一套過濾詞彙表,是QQ遊戲目錄下的COMToolKit.dll,[2][3]過濾詞彙內容與eMule VeryCD Mod的關鍵詞過濾檔案內容幾乎相同。[3]這套過濾程式收錄了1041個詞彙,與相關的約佔15%,其餘基本都是與政治相關。[4]由於中國大陸網絡審查缺乏對公眾透明,這個關鍵詞過濾檔案是否是由中國大陸的網絡警察創作的,目前沒有明確的說法。

並且,為了某些安全上面的需要,某些網頁遊戲(flash編寫)中有一部分資原始檔亦有使用as指令碼編寫的敏感詞過濾檔案(副檔名為swf),不過必須使用專門的軟件對其進行反向工程才可以檢視包含的敏感詞。[來源請求]

影響

斯肯索普問題,指的是整句字詞裏含有部分字元子串含有敏感字元(如「开放性交互式编辑界面」一詞含有「性交」一詞),從而被網站關鍵詞過濾。英國小鎮斯肯索普 (Scunthorpe) 含有英文字詞 "cunt" (陰道、「屄」),1996年,當地居民稱無法從美國線上註冊,因故得名「斯肯索普問題」。

參見

參考文獻