MediaWiki讨论:Robots.txt

关于robots.txt

最新留言：在13年前发布1条留言1人参与讨论

Google前几日刚刚发布了新的robots.txt规范：[1], [2], [3]，各位看看我们的mediawiki:robots.txt有没有需要优化的地方？--百無一用是書生 (☎) 2010年11月30日 (二) 14:18 (UTC)回复

站内隐私保护

最新留言：在11年前发布3条留言3人参与讨论

出于保护维基人隐私的考虑，我建议将WP:聚会、WP:即时联系维基人等页面加入Mediawiki:Robots.txt的搜索引擎屏蔽项目中（__NOINDEX__不能对子页面起作用）。现寻求大家的意见，或请提出其他不宜对搜索引擎公开的页面。--Kegns ♖ 2012年12月13日 (四) 12:09 (UTC)回复

自愿公开资料的.......像我的FACEBOOK+新浪微博都是不在维基公开的......但在我们的铁道迷网站也是不公开FB(其实也说过....不过因维护网站安全而删了...因为这是个天津的车迷网).....但是公开微薄......像我基本上从来都没有把自己的照片放到网络上.....只不过有十余张被不小心拍到还上过报纸.......但我从来也没跟其他人说过........回正题.....过多的个人资料就不要放到网络上来......像聚会一般应该是以账号区分维基人的.....所以也只牵扯到账号使用者容貌的问题......但最后强调......自愿放上来就不要埋怨隐私问题.......在网络上...除非你是很有名的人士.....不然不要把你的照片+姓名放上网络......不然后果就是自己负责.......ltdccba--Jason--Lin⇒ 2012年12月13日 (四) 14:24 (UTC)回复

(＋)支持--Lakokat 2012年12月14日 (五) 06:21 (UTC)回复

将"Special:用户贡献"的子页面加入到robots.txt

最新留言：在10年前发布8条留言4人参与讨论

本主题或以下段落文字，移动自Wikipedia:互助客栈/技术。执行者：Jimmy-bot（留言） 2014年3月6日 (四) 14:42 (UTC)。回复

请求将Special:用户贡献的子页面加入到robots.txt中。因为我发现虽然那些页面上有meta robots noindex，但是百度蜘蛛不支持noindex，所以用百度搜索“的用户贡献”，有70多页的相关结果，但是Google搜索没有任何相关结果。所以我想能不能在MediaWiki:Robots.txt中加入以下内容：

Disallow: /*/Special:用户贡献/*
Disallow: /*/Special:%E7%94%A8%E6%88%B7%E8%B4%A1%E7%8C%AE/*

谢谢！--Chmarkine（留言） 2014年2月22日 (六) 23:32 (UTC)回复

像是百度的bug吧而不是完全“不支持noindex”，不然怎么可能“只有”70多页。随便一搜找到[4]，有人说robots.txt有时也没用……Liangent（留言） 2014年2月23日 (日) 06:33 (UTC)回复

好吧。--Chmarkine（留言） 2014年2月24日 (一) 04:05 (UTC)回复

又有新发现：看起来所有特殊页面都含有meta robots noindex,nofollow，但是百度搜索inurl:Special可以看到不少结果，其中多数是Special:用户贡献、Special:链出更改和Special:网络书源，而且竟然第一页就有这个，另外这些：从第34页往后有异常多的垃圾链接。所以我还是觉得不管百度支不支持noindex，还是加上robots阻止比较好，我估计百度不敢明目张胆地忽略robots.txt，而且要阻止就把所有Special:开头的链接全阻止掉。大家觉得怎样？--Chmarkine（留言） 2014年2月24日 (一) 08:16 (UTC)回复

很可惜，已经有人提及baidu的蜘蛛不一定遵守robots规范，或者可能蜘蛛robots规范实现有问题的。——路过围观的Sakamotosan 2014年2月24日 (一) 08:38 (UTC)回复

曾经想过能否在解析层上开发一种插件，能根据用户信息（如UA，访问IP，用户名等）和访问的内容（特定页面或其子页面，分类等）进行控制（主要阻止访问，如服务器跳转到白页，或直接404之类），这样就可以避免robots.txt或robot meta阻止实现的情况。但好像mw的解析hook上没有readpage的hook……——路过围观的Sakamotosan 2014年2月24日 (一) 08:36 (UTC)回复

既然是不一定，那为什么不试试呢？确实根据UA提供不同内容是个更好的办法，但不知能否实现。--Chmarkine（留言） 2014年2月24日 (一) 08:44 (UTC)回复