PHP批量识别Nginx网站日志内的百度真假爬虫记录

10,060次阅读
没有评论

共计 339 个字符,预计需要花费 1 分钟才能阅读完成。

一、介绍

通过分析网站日志可以统计出百度的真实抓取次数、分析抓取情况。

网站一般都有一定的反爬虫机制,但是为了正常收录会通过 UA 排除百度的爬虫,也就导致了很多做采集、爬虫的人冒充百度爬虫 UA 用以越过反爬虫机制。

二、分析、识别原理

逐条分析每一条日志,筛选出百度爬虫的日志,再通过 exec 函数执行 nslookup 命令反向解析 IP 获取解析的域名,域名中包括 baiduspider 关键词的就是真的百度爬虫。

三、使用

下载 PHP 脚本( 百度网盘 )提取码:8888。

该脚本需要使用 exec 函数,使用前请打开 php.ini,搜索 disable_function,在它的值内把 exec 去掉。

Linux、window 命令行下输入:php monitor.php,按照提示输入日志文件的文件路径,结果如下

PHP 批量识别 Nginx 网站日志内的百度真假爬虫记录

运行

    正文完
     0
    Yojack
    版权声明:本篇文章由 Yojack 于2024-09-10发表,共计339字。
    转载说明:
    1 本网站名称:优杰开发笔记
    2 本站永久网址:https://yojack.cn
    3 本网站的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,请联系站长进行删除处理。
    4 本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
    5 本站所有内容均可转载及分享, 但请注明出处
    6 我们始终尊重原创作者的版权,所有文章在发布时,均尽可能注明出处与作者。
    7 站长邮箱:laylwenl@gmail.com
    评论(没有评论)