经发现,虽然wget遵循 robots.txt 规则,但是那个还是可以绕过去,现在把我自己使用的屏蔽方法分享给大家:
1. 屏蔽下载任何文件
.htaccess
SetEnvIfNoCase User-Agent \"^wget\" bad_bot
Order Allow,Deny
Allow from all
Deny from env=bad_bot
2. 屏蔽下载部分文件
.htaccess
SetEnvIfNoCase User-Agent \"^Wget\" bad_bot
SetEnvIfNoCase User-Agent \"^Wget/1.5.3\" bad_bot
SetEnvIfNoCase User-Agent \"^Wget/1.6\" bad_bot
Order Allow,Deny
Allow from all
Deny from env=bad_bot