全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 561|回复: 7

我来说下真假蜘蛛的判断

[复制链接]
发表于 2021-7-29 14:45:35 | 显示全部楼层 |阅读模式
越来越多采集器伪装蜘蛛爬取数据,怎么判断真假蜘蛛呢?

1、百度蜘蛛IP主要是北京和山西阳泉李艳红老家两个地方 集中在220.181.*.*和116.179.*.*两个IP段

2、假蜘蛛会一个目录从第一页到最后一页全部爬完,真蜘蛛是混爬的
发表于 2021-7-29 14:49:01 | 显示全部楼层
说得好,那具体应该怎么屏蔽假蜘蛛呢? 求个教程
发表于 2021-7-29 15:09:00 | 显示全部楼层
百度还有很多临时工蜘蛛。不要乱屏蔽。
发表于 2021-7-29 15:13:20 | 显示全部楼层

是啊 ,但是蜘蛛IP很多的
https://www.pigji.com/304.html  
发表于 2021-7-29 15:33:59 | 显示全部楼层
有点意思,支持一下
发表于 2021-7-29 15:36:40 | 显示全部楼层
真的蜘蛛会公布自己使用的UA和IP的

https://help.baidu.com/question?prod_id=99&class=476&id=2996

在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
发表于 2021-7-29 18:30:21 | 显示全部楼层
这两天正好被蜘蛛攻击了 一天爬几十万次 机器一打开直接宕机 把IP屏蔽完后才恢复
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2026-5-11 13:20 , Processed in 0.061691 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表