使用者:PhiLiP/nuke
某[誰?]自動程序的計劃。
總體要求
- 從enwp抓條目數據,參照是Template:Infobox_Settlement的鏈入頁面。
- 目前只打算抓美國的地理位置,因此僅考慮Country參數為United States的情況。
- 使用跨維基鏈接自動匹配器檢查是否已有中文對應條目,若有則略過。
- 國名、州名可用AI翻譯器,無需修改。縣名可使用跨維基鏈接自動匹配器檢查;若無其他可能則用AI翻譯器,但此時須讓監視者修改。
- 地名使用AI翻譯器,須讓監視者修改。
- 圖片說明需人工翻譯,但可配合AI翻譯器使用。
- 面積、人口使用單位採用英制(沿襲當地用法),但附註公制,可用{{convert}}實現。注意zhwp的convert模板與enwp有些微不同(版本差異?)。
- 採用統一套用模板填寫參數,信息框、正文自動產生,分類使用專業處理器處理,跨語言鏈接自動生成。
- 字數檢查機制:正文少於50中文漢字保留不貼。
- 正文須讓監視者修改。
AI翻譯器的要求
- 輸入參數中應包含下列各種翻譯類型的指定,以儘量利用信息框所提供內容,簡化程序設計。
- 須能從cnki的工具書庫中自動檢索關鍵詞,自動識別《世界地名翻譯大辭典》的解釋。無法找到或找到多個不一樣結果時採用fallback機制,列出內容供監視者檢查、修改。
- 須能自動翻譯諸如「Location in the state of XXXX」、「XXXX's location in the YYYY」的英文內容。
- 須能自動翻譯時區。
- 須能從cnki的工具書庫中自動檢索人名(如市長)。
- 須能翻譯國名、州名。
- 須能翻譯政府類型。
- 不確定的內容須列出輸入框供監視者修改。
分類處理器的要求
- 自動探測已存在的分類。
- 自動創建不存在的分類。
實現倚賴軟件
- Python
- GAE
- Pywikipedia