更新时间:2024-04-12 GMT+08:00

配置网站反爬虫防护规则

您可以通过配置网站反爬虫防护规则,防护搜索引擎、扫描器、脚本工具、其它爬虫等爬虫。

前提条件

已添加防护网站。

约束条件

  • 本功能依赖浏览器的Cookie机制、JavaScript解析能力,如果客户端浏览器不支持Cookie,此功能无法使用。
  • 添加或修改防护规则后,规则生效需要等待几分钟。规则生效后,您可以在“防护事件”页面查看防护效果。
  • 如果您的业务接入了CDN服务,请谨慎使用此功能。

    由于CDN缓存机制的影响,WAF的网站反爬虫特性将无法达到预期效果,并且有可能造成页面访问异常。

操作步骤

  1. 登录管理控制台。
  2. 单击管理控制台左上角的,选择区域或项目。
  3. 单击页面左上方的,选择安全 > Web应用防火墙
  4. 在左侧导航树中,选择“网站设置”,进入“网站设置”页面。
  5. 在目标域名所在行的“防护策略”栏中,单击“已开启N项防护”,进入“防护策略”页面。
  6. “网站反爬虫”配置框中,用户可根据自己的需要更改网站反爬虫的“状态”,单击“BOT设置”,进入网站反爬虫规则配置页面。
  7. 选择“特征反爬虫”页签,根据您的业务场景,开启合适的防护功能,检测项说明如表1所示。

    特征反爬虫规则提供了两种防护动作:
    • 拦截

      发现攻击行为后立即阻断并记录。

      开启拦截后,可能会有以下影响 :

      • 拦截搜索引擎请求,可能影响网站的搜索引擎优化。
      • 拦截脚本工具,可能会影响部分APP访问(部分APP的User-Agent未做修改,会匹配脚本工具类爬虫规则)。
    • 仅记录

      默认防护动作,发现攻击行为后只记录不阻断攻击。

    默认开启“扫描器”防护检测,用户可根据业务需要,配置防护动作并开启其他需要防护的检测类型。

    表1 特征反爬虫检测项说明

    检测项

    说明

    功能说明

    搜索引擎

    搜索引擎执行页面内容爬取任务,如Googlebot、Baiduspider。

    开启后,WAF将检测并阻断搜索引擎爬虫。

    说明:

    如果不开启“搜索引擎”,WAF针对谷歌和百度爬虫不会拦截。

    扫描器

    执行漏洞扫描、病毒扫描等Web扫描任务,如OpenVAS、Nmap。

    开启后,WAF将检测并阻断扫描器爬虫。

    脚本工具

    用于执行自动化任务、程序脚本等,如httpclient、okhttp、python程序等。

    开启后,WAF将检测并阻断执行自动化任务、程序脚本等。

    说明:

    如果您的应用程序中使用了httpclient、okhttp、python程序等脚本工具,建议您关闭“脚本工具”,否则,WAF会将使用了httpclient、okhttp、python程序等脚本工具当成恶意爬虫,拦截该应用程序。

    其他爬虫

    各类用途的爬虫程序,如站点监控、访问代理、网页分析等。

    说明:

    “访问代理”是指当网站接入WAF后,为避免爬虫被WAF拦截,爬虫者使用大量IP代理实现爬虫的一种技术手段。

    开启后,WAF将检测并阻断各类用途的爬虫程序。