MediaWiki討論:Robots.txt

由Shizhao在話題編輯請求 2022-10-01上作出的最新留言:2 年前

關於robots.txt

Google前幾日剛剛發布了新的robots.txt規範:[1], [2], [3],各位看看我們的mediawiki:robots.txt有沒有需要優化的地方?--百無一用是書生 () 2010年11月30日 (二) 14:18 (UTC)回覆

站內隱私保護

出於保護維基人隱私的考慮,我建議將WP:聚會WP:即時聯繫維基人等頁面加入Mediawiki:Robots.txt的搜尋引擎屏蔽項目中(__NOINDEX__不能對子頁面起作用)。現尋求大家的意見,或請提出其他不宜對搜尋引擎公開的頁面。--Kegns 2012年12月13日 (四) 12:09 (UTC)回覆

自願公開資料的.......像我的FACEBOOK+新浪微博都是不在維基公開的......但在我們的鐵道迷網站也是不公開FB(其實也說過....不過因維護網站安全而刪了...因為這是個天津的車迷網).....但是公開微薄......像我基本上從來都沒有把自己的照片放到網路上.....只不過有十餘張被不小心拍到還上過報紙.......但我從來也沒跟其他人說過........回正題.....過多的個人資料就不要放到網路上來......像聚會一般應該是以帳號區分維基人的.....所以也只牽扯到帳號使用者容貌的問題......但最後強調......自願放上來就不要埋怨隱私問題.......在網路上...除非你是很有名的人士.....不然不要把你的照片+姓名放上網路......不然後果就是自己負責.......ltdccba--Jason--Lin2012年12月13日 (四) 14:24 (UTC)回覆
(+)支持--Lakokat 2012年12月14日 (五) 06:21 (UTC)回覆

將"Special:用戶貢獻"的子頁面加入到robots.txt

請求將Special:用戶貢獻的子頁面加入到robots.txt中。因為我發現雖然那些頁面上有meta robots noindex,但是百度蜘蛛不支持noindex,所以用百度搜索「的用戶貢獻」,有70多頁的相關結果,但是Google搜尋沒有任何相關結果。所以我想能不能在MediaWiki:Robots.txt中加入以下內容:

Disallow: /*/Special:用户贡献/*
Disallow: /*/Special:%E7%94%A8%E6%88%B7%E8%B4%A1%E7%8C%AE/*

謝謝!--Chmarkine留言2014年2月22日 (六) 23:32 (UTC)回覆

像是百度的bug吧而不是完全「不支持noindex」,不然怎麼可能「只有」70多頁。隨便一搜找到[4],有人說robots.txt有時也沒用……Liangent留言 2014年2月23日 (日) 06:33 (UTC)回覆
好吧。--Chmarkine留言2014年2月24日 (一) 04:05 (UTC)回覆
又有新發現:看起來所有特殊頁面都含有meta robots noindex,nofollow,但是百度搜索inurl:Special可以看到不少結果,其中多數是Special:用戶貢獻Special:鏈出更改Special:網絡書源,而且竟然第一頁就有這個,另外這些:從第34頁往後有異常多的垃圾連結。所以我還是覺得不管百度支不支持noindex,還是加上robots阻止比較好,我估計百度不敢明目張胆地忽略robots.txt,而且要阻止就把所有Special:開頭的連結全阻止掉。大家覺得怎樣?--Chmarkine留言2014年2月24日 (一) 08:16 (UTC)回覆
很可惜,已經有人提及baidu的蜘蛛不一定遵守robots規範,或者可能蜘蛛robots規範實現有問題的。——路過圍觀的Sakamotosan 2014年2月24日 (一) 08:38 (UTC)回覆
曾經想過能否在解析層上開發一種插件,能根據用戶信息(如UA,訪問IP,用戶名等)和訪問的內容(特定頁面或其子頁面,分類等)進行控制(主要阻止訪問,如伺服器跳轉到白頁,或直接404之類),這樣就可以避免robots.txt或robot meta阻止實現的情況。但好像mw的解析hook上沒有readpage的hook……——路過圍觀的Sakamotosan 2014年2月24日 (一) 08:36 (UTC)回覆
既然是不一定,那為什麼不試試呢?確實根據UA提供不同內容是個更好的辦法,但不知能否實現。--Chmarkine留言2014年2月24日 (一) 08:44 (UTC)回覆

阻止搜尋引擎收錄所有Special頁面

  請求已處理

加入: Disallow: /*/Special:*

這是我在百度搜尋到的(「世爵平台」利用漏洞刷出來的廣告,當然不只這一條)。百度蜘蛛爬蟲的英文名為baiduspider。-- By LNDDYL.(留言2014年12月2日 (二) 00:19 (UTC)回覆

編輯請求 2020-07-05

  請求已處理--Xiplus#Talk 2020年7月12日 (日) 03:36 (UTC)回覆

請刪除所有三個Sitemap,sitemap.wikimedia.org已經淘汰/退役(詳見T101486),且Google不會在維基媒體項目中讀取Sitemap(詳見T198965)--VulpesVulpes825留言2020年7月5日 (日) 07:58 (UTC)回覆

編輯請求 2020-10-12

  請求已處理

修復錯誤-- Sunny00217  2020年10月12日 (一) 01:46 (UTC)回覆

 完成--百無一用是書生 () 2020年10月13日 (二) 06:10 (UTC)回覆

編輯請求 2022-10-01

  請求已處理

加入

Disallow: /*/*action=*

per [5]--SunAfterRain 2022年10月1日 (六) 07:05 (UTC)回覆

  已修復--百無一用是書生 () 2022年10月8日 (六) 11:36 (UTC)回覆
返回 "Robots.txt" 頁面。