MediaWiki讨论:Robots.txt

Shizhao在话题“编辑请求 2022-10-01”中的最新留言:2年前

关于robots.txt

Google前几日刚刚发布了新的robots.txt规范:[1], [2], [3],各位看看我们的mediawiki:robots.txt有没有需要优化的地方?--百無一用是書生 () 2010年11月30日 (二) 14:18 (UTC)回复

站内隐私保护

出于保护维基人隐私的考虑,我建议将WP:聚会WP:即时联系维基人等页面加入Mediawiki:Robots.txt的搜索引擎屏蔽项目中(__NOINDEX__不能对子页面起作用)。现寻求大家的意见,或请提出其他不宜对搜索引擎公开的页面。--Kegns 2012年12月13日 (四) 12:09 (UTC)回复

自愿公开资料的.......像我的FACEBOOK+新浪微博都是不在维基公开的......但在我们的铁道迷网站也是不公开FB(其实也说过....不过因维护网站安全而删了...因为这是个天津的车迷网).....但是公开微薄......像我基本上从来都没有把自己的照片放到网络上.....只不过有十余张被不小心拍到还上过报纸.......但我从来也没跟其他人说过........回正题.....过多的个人资料就不要放到网络上来......像聚会一般应该是以账号区分维基人的.....所以也只牵扯到账号使用者容貌的问题......但最后强调......自愿放上来就不要埋怨隐私问题.......在网络上...除非你是很有名的人士.....不然不要把你的照片+姓名放上网络......不然后果就是自己负责.......ltdccba--Jason--Lin2012年12月13日 (四) 14:24 (UTC)回复
(+)支持--Lakokat 2012年12月14日 (五) 06:21 (UTC)回复

将"Special:用户贡献"的子页面加入到robots.txt

请求将Special:用户贡献的子页面加入到robots.txt中。因为我发现虽然那些页面上有meta robots noindex,但是百度蜘蛛不支持noindex,所以用百度搜索“的用户贡献”,有70多页的相关结果,但是Google搜索没有任何相关结果。所以我想能不能在MediaWiki:Robots.txt中加入以下内容:

Disallow: /*/Special:用户贡献/*
Disallow: /*/Special:%E7%94%A8%E6%88%B7%E8%B4%A1%E7%8C%AE/*

谢谢!--Chmarkine留言2014年2月22日 (六) 23:32 (UTC)回复

像是百度的bug吧而不是完全“不支持noindex”,不然怎么可能“只有”70多页。随便一搜找到[4],有人说robots.txt有时也没用……Liangent留言 2014年2月23日 (日) 06:33 (UTC)回复
好吧。--Chmarkine留言2014年2月24日 (一) 04:05 (UTC)回复
又有新发现:看起来所有特殊页面都含有meta robots noindex,nofollow,但是百度搜索inurl:Special可以看到不少结果,其中多数是Special:用户贡献Special:链出更改Special:网络书源,而且竟然第一页就有这个,另外这些:从第34页往后有异常多的垃圾链接。所以我还是觉得不管百度支不支持noindex,还是加上robots阻止比较好,我估计百度不敢明目张胆地忽略robots.txt,而且要阻止就把所有Special:开头的链接全阻止掉。大家觉得怎样?--Chmarkine留言2014年2月24日 (一) 08:16 (UTC)回复
很可惜,已经有人提及baidu的蜘蛛不一定遵守robots规范,或者可能蜘蛛robots规范实现有问题的。——路过围观的Sakamotosan 2014年2月24日 (一) 08:38 (UTC)回复
曾经想过能否在解析层上开发一种插件,能根据用户信息(如UA,访问IP,用户名等)和访问的内容(特定页面或其子页面,分类等)进行控制(主要阻止访问,如服务器跳转到白页,或直接404之类),这样就可以避免robots.txt或robot meta阻止实现的情况。但好像mw的解析hook上没有readpage的hook……——路过围观的Sakamotosan 2014年2月24日 (一) 08:36 (UTC)回复
既然是不一定,那为什么不试试呢?确实根据UA提供不同内容是个更好的办法,但不知能否实现。--Chmarkine留言2014年2月24日 (一) 08:44 (UTC)回复

阻止搜索引擎收录所有Special页面

  请求已处理

加入: Disallow: /*/Special:*

这是我在百度搜寻到的(“世爵平台”利用漏洞刷出来的广告,当然不只这一条)。百度蜘蛛爬虫的英文名为baiduspider。-- By LNDDYL.(留言2014年12月2日 (二) 00:19 (UTC)回复

编辑请求 2020-07-05

  请求已处理--Xiplus#Talk 2020年7月12日 (日) 03:36 (UTC)回复

请删除所有三个Sitemap,sitemap.wikimedia.org已经淘汰/退役(详见T101486),且Google不会在维基媒体项目中读取Sitemap(详见T198965)--VulpesVulpes825留言2020年7月5日 (日) 07:58 (UTC)回复

编辑请求 2020-10-12

  请求已处理

修复错误-- Sunny00217  2020年10月12日 (一) 01:46 (UTC)回复

 完成--百無一用是書生 () 2020年10月13日 (二) 06:10 (UTC)回复

编辑请求 2022-10-01

  请求已处理

加入

Disallow: /*/*action=*

per [5]--SunAfterRain 2022年10月1日 (六) 07:05 (UTC)回复

  已修复--百無一用是書生 () 2022年10月8日 (六) 11:36 (UTC)回复
返回到“Robots.txt”页面。