共计 339 个字符,预计需要花费 1 分钟才能阅读完成。
一、介绍
通过分析网站日志可以统计出百度的真实抓取次数、分析抓取情况。
网站一般都有一定的反爬虫机制,但是为了正常收录会通过 UA 排除百度的爬虫,也就导致了很多做采集、爬虫的人冒充百度爬虫 UA 用以越过反爬虫机制。
二、分析、识别原理
逐条分析每一条日志,筛选出百度爬虫的日志,再通过 exec 函数执行 nslookup 命令反向解析 IP 获取解析的域名,域名中包括 baiduspider 关键词的就是真的百度爬虫。
三、使用
下载 PHP 脚本( 百度网盘 )提取码:8888。
该脚本需要使用 exec 函数,使用前请打开 php.ini,搜索 disable_function,在它的值内把 exec 去掉。
Linux、window 命令行下输入:php monitor.php,按照提示输入日志文件的文件路径,结果如下
运行
正文完