MJ12bot这个蜘蛛是大家都怎么处理的?是否对SEO有帮助,他一直频繁的访问网站,是否应该屏蔽掉他呢,我的选择是好不犹豫的直接干掉他;
- MJ12bot遵循robots.txt标准,惹需屏蔽他,直接在 robots.txt 添加以下代码;
过去几个月总是在过一段时间后收到服务器资源负载过高的警告,基本上每次上机检查日志都会发现某个网站被奇怪的恶意爬虫给完整检查了一遍。而且不知道为什么 MJ12bot 总是会检查一些无限重定向的链接,导致服务器资源被无意义地消耗。
几个资源消耗比较高的爬虫包括:
- dotbot
- SemrushBot
- MJ12bot
- 我特别建议屏蔽 MJ12bot,因为一些版权方会使用这家的爬虫来批量检查网站中是否包含侵犯版权的文件
- SMTBot
对于这些爬虫建议直接在 robots.txt 中屏蔽掉它们,目前复查日志发现至少它们确实是遵守 robots.txt 规则的
-
User-agent: dotbot
-
Disallow: /
-
User-agent: SemrushBot
-
Disallow: /
-
User-agent: MJ12bot
-
Disallow: /
-
User-agent: SMTBot
-
Disallow: /
-
User-agent: PetalBot
-
Disallow: /
-
User-agent: AhrefsBot
-
Disallow: /
-
User-agent: CheckMarkNetwork
-
Disallow: /
-
User-agent: DigiCert DCV Bot
-
Disallow: /
转载请标注来源