MediaWiki talk:Robots.txt
关于robots.txt
Google前几日刚刚发布了新的robots.txt规范:[1], [2], [3],各位看看我们的mediawiki:robots.txt有没有需要优化的地方?--百無一用是書生 (☎) 2010年11月30日 (二) 14:18 (UTC)
站内隐私保护
出于保护维基人隐私的考虑,我建议将WP:聚会、WP:即时联系维基人等页面加入Mediawiki:Robots.txt的搜索引擎屏蔽项目中(__NOINDEX__不能对子页面起作用)。现寻求大家的意见,或请提出其他不宜对搜索引擎公开的页面。--Kegns♖ 2012年12月13日 (四) 12:09 (UTC)
- 自願公開資料的.......像我的FACEBOOK+新浪微博都是不在維基公開的......但在我們的鐵道迷網站也是不公開FB(其實也說過....不過因維護網站安全而刪了...因為這是個天津的車迷網).....但是公開微薄......像我基本上從來都沒有把自己的照片放到網路上.....只不過有十餘張被不小心拍到還上過報紙.......但我從來也沒跟其他人說過........回正題.....過多的個人資料就不要放到網路上來......像聚會一般應該是以帳號區分維基人的.....所以也只牽扯到帳號使用者容貌的問題......但最後強調......自願放上來就不要埋怨隱私問題.......在網路上...除非你是很有名的人士.....不然不要把你的照片+姓名放上網路......不然後果就是自己負責.......ltdccba--Jason--Lin⇒ 2012年12月13日 (四) 14:24 (UTC)
- (+)支持--Lakokat 2012年12月14日 (五) 06:21 (UTC)
将"Special:用户贡献"的子页面加入到robots.txt
请求将Special:用户贡献的子页面加入到robots.txt中。因为我发现虽然那些页面上有meta robots noindex,但是百度蜘蛛不支持noindex,所以用百度搜索“的用户贡献”,有70多页的相关结果,但是Google搜索没有任何相关结果。所以我想能不能在MediaWiki:Robots.txt中加入以下内容:
- Disallow: /*/Special:用户贡献/*
- Disallow: /*/Special:%E7%94%A8%E6%88%B7%E8%B4%A1%E7%8C%AE/*
谢谢!--Chmarkine(留言) 2014年2月22日 (六) 23:32 (UTC)
- 像是百度的bug吧而不是完全“不支持noindex”,不然怎么可能“只有”70多页。随便一搜找到[4],有人说robots.txt有时也没用……Liangent(留言) 2014年2月23日 (日) 06:33 (UTC)
- 好吧。--Chmarkine(留言) 2014年2月24日 (一) 04:05 (UTC)
- 又有新发现:看起来所有特殊页面都含有meta robots noindex,nofollow,但是百度搜索inurl:Special可以看到不少结果,其中多数是Special:用户贡献、Special:链出更改和Special:网络书源,而且竟然第一页就有这个,另外这些:从第34页往后有异常多的垃圾链接。所以我还是觉得不管百度支不支持noindex,还是加上robots阻止比较好,我估计百度不敢明目张胆地忽略robots.txt,而且要阻止就把所有Special:开头的链接全阻止掉。大家觉得怎样?--Chmarkine(留言) 2014年2月24日 (一) 08:16 (UTC)
- 好吧。--Chmarkine(留言) 2014年2月24日 (一) 04:05 (UTC)
- 很可惜,已经有人提及baidu的蜘蛛不一定遵守robots规范,或者可能蜘蛛robots规范实现有问题的。——路过围观的Sakamotosan 2014年2月24日 (一) 08:38 (UTC)
- 曾经想过能否在解析层上开发一种插件,能根据用户信息(如UA,访问IP,用户名等)和访问的内容(特定页面或其子页面,分类等)进行控制(主要阻止访问,如服务器跳转到白页,或直接404之类),这样就可以避免robots.txt或robot meta阻止实现的情况。但好像mw的解析hook上没有readpage的hook……——路过围观的Sakamotosan 2014年2月24日 (一) 08:36 (UTC)
- 既然是不一定,那为什么不试试呢?确实根据UA提供不同内容是个更好的办法,但不知能否实现。--Chmarkine(留言) 2014年2月24日 (一) 08:44 (UTC)
- 曾经想过能否在解析层上开发一种插件,能根据用户信息(如UA,访问IP,用户名等)和访问的内容(特定页面或其子页面,分类等)进行控制(主要阻止访问,如服务器跳转到白页,或直接404之类),这样就可以避免robots.txt或robot meta阻止实现的情况。但好像mw的解析hook上没有readpage的hook……——路过围观的Sakamotosan 2014年2月24日 (一) 08:36 (UTC)
阻止搜尋引擎收錄所有Special頁面
请求已处理
加入:
Disallow: /*/Special:*
這是我在百度搜尋到的(「世爵平台」利用漏洞刷出來的廣告,當然不只這一條)。百度蜘蛛爬蟲的英文名為baiduspider。-- By LNDDYL.(留言) 2014年12月2日 (二) 00:19 (UTC)
- 虽然不知道百度遵不遵守,但还是加上去了。--广雅 范★ 2014年12月2日 (二) 06:41 (UTC)
- @范:把搜狗、360搜索神馬的,都阻止吧!-- By LNDDYL.(留言) 2014年12月11日 (四) 09:09 (UTC)
- 请求时请列明理由。--Jimmy Xu 论 2014年12月11日 (四) 11:13 (UTC)
- @范:把搜狗、360搜索神馬的,都阻止吧!-- By LNDDYL.(留言) 2014年12月11日 (四) 09:09 (UTC)
編輯請求 2020-07-05
请求已处理--Xiplus#Talk 2020年7月12日 (日) 03:36 (UTC)
请删除所有三个Sitemap,sitemap.wikimedia.org已经淘汰/退役(详见T101486),且Google不会在维基媒体项目中读取Sitemap(详见T198965)--VulpesVulpes825(留言) 2020年7月5日 (日) 07:58 (UTC)
編輯請求 2020-10-12
请求已处理
編輯請求 2022-10-01
请求已处理
加入
Disallow: /*/*action=*
per [5]--SunAfterRain 2022年10月1日 (六) 07:05 (UTC)
- 已修复--百無一用是書生 (☎) 2022年10月8日 (六) 11:36 (UTC)