怎么屏蔽不遵守规则的爬虫?

搬瓦工机场JMS

大佬们好,小白一个,站点把robots.txt设置了国内主流搜索引擎抓取,其他屏蔽。但总是有不遵守规则的爬虫弄得vps占用过高,怎么能屏蔽爬虫呢?有什么工具吗?我的是lnmp环境,小弟不胜感激
台湾网友:服务器反爬虫攻略 Apache/Nginx/PHP禁止非法抓取内容
https://www.yunloc.com/763.html
吉林网友:增长ip卖广告,也挺好的啊
甘肃网友:谢谢大佬,我去看看可不可行
山东网友:性能都被占用了,增长的ip没什么用,全是爬虫
湖南网友:我是抓到直接ban IP. emm 抓了几十个 爬虫就越来越少了.
上海网友:爬虫占用不了多少性能吧?

除非疯狂采集?
安徽网友:有几个拼命的抓,cpu好几次占用100%
贵州网友:根据ua或ip添加屏蔽规则 可以堵住不少
澳门网友:
根据ip限流下好了 ,

搞个令牌桶,比如限制单ip1分钟最多x次.

话说楼主什么站?
发出来让mjj们ip+1一下
天津网友:
根据ip限流下好了 ,

搞个令牌桶,比如限制单ip1分钟最多x次.

话说楼主什么站?
发出来让mjj们ip+1一下
广西网友:根据ua拦截不靠谱,很多不规矩的东西现在都会伪装成baiduspider。
贵州网友:确实,说来说去还是VPS性能差了。。。

我的轻量香港24的每天谷歌10W的蜘蛛,偶尔也502或者CPU百分百,

高配ks3c,真的无压力….
四川网友: List of IP addresses of Known Web Bots & Spiders
https://myip.ms/files/bots/live_webcrawlers.txt

未经允许不得转载:美国VPS_搬瓦工CN2 GIA VPS » 怎么屏蔽不遵守规则的爬虫?

赞 (0) 打赏

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏