PHP批量识别Nginx网站日志内的百度真假爬虫记录

10,060次阅读

没有评论

共计 339 个字符，预计需要花费 1 分钟才能阅读完成。

一、介绍

通过分析网站日志可以统计出百度的真实抓取次数、分析抓取情况。

网站一般都有一定的反爬虫机制，但是为了正常收录会通过 UA 排除百度的爬虫，也就导致了很多做采集、爬虫的人冒充百度爬虫 UA 用以越过反爬虫机制。

二、分析、识别原理

逐条分析每一条日志，筛选出百度爬虫的日志，再通过 exec 函数执行 nslookup 命令反向解析 IP 获取解析的域名，域名中包括 baiduspider 关键词的就是真的百度爬虫。

三、使用

下载 PHP 脚本（百度网盘）提取码：8888。

该脚本需要使用 exec 函数，使用前请打开 php.ini，搜索 disable_function，在它的值内把 exec 去掉。

Linux、window 命令行下输入：php monitor.php，按照提示输入日志文件的文件路径，结果如下

运行

正文完

PHP SEO 天天向上技术导向爬虫

发表至：开发笔记

2024-09-10

0

转载说明：

1 本网站名称：优杰开发笔记
2 本站永久网址：https://yojack.cn
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站所有内容均可转载及分享, 但请注明出处
6 我们始终尊重原创作者的版权，所有文章在发布时，均尽可能注明出处与作者。
7 站长邮箱：laylwenl@gmail.com

jQuery实现二级菜单

HTML 参考手册- (HTML5 标准)

Vue基于vue-office实现docx、xlsx、pdf文件的在线预览

使用JavaScript实现扫雷小游戏！附加源码！

Linux service、systemd的作用和用法是什么？