文档首页 > > 最佳实践>

通过配置反爬虫防护策略阻止爬虫攻击

通过配置反爬虫防护策略阻止爬虫攻击

分享
更新时间:2021/07/20 GMT+08:00

网络爬虫为网络信息收集与查询提供了极大的便利,但同时也对网络安全产生以下负面影响:

  • 网络爬虫会根据特定策略尽可能多的“爬过”网站中的高价值信息,占用服务器带宽,增加服务器的负载
  • 恶意用户利用网络爬虫对Web服务发动DoS攻击,可能使Web服务资源耗尽而不能提供正常服务
  • 恶意用户利用网络爬虫抓取各种敏感信息,造成网站的核心数据被窃取,损害企业经济利益

Web应用防火墙可以通过Robot检测(识别User-Agent)、网站反爬虫(检查浏览器合法性)和CC攻击防护(限制访问频率)三个反爬虫策略,全方位帮您解决业务网站遭受的爬虫问题。

前提条件

域名已成功接入WAF。

开启Robot检测(识别User-Agent)

开启Robot检测后,WAF可以检测和拦截恶意爬虫、扫描器、网马等威胁。

  1. 登录管理控制台
  2. 进入网站设置页面入口,如图1所示。

    图1 网站设置入口

  3. 在您需要防护的域名所在行的“防护策略”栏中,单击“配置防护策略”,进入“防护配置”页面,确认“Web基础防护”“状态”,如图2所示。

    图2 Web基础防护配置框

  4. 单击“高级设置”,在“防护配置”页面,开启“常规检测”“Webshell”检测开关。

  5. “网站反爬虫”配置框中,用户可根据自己的需要参照图3更改网站反爬虫的“状态”,单击“BOT设置”,进入网站反爬虫规则配置页面。

    图3 网站反爬虫配置框

  6. “特征反爬虫”页面,开启Robot检测开关,如图4所示。

    图4 开启特征反爬虫

    当WAF检测到恶意爬虫、扫描器等对网站进行爬取时,将立即拦截并记录该事件,您可以在“防护事件”页面查看爬虫防护日志。

开启网站反爬虫(检查浏览器合法性)

开启网站反爬虫,WAF可以动态分析网站业务模型,结合人机识别技术和数据风控手段,精准识别爬虫行为。

  1. 登录管理控制台
  2. 进入网站设置页面入口,如图5所示。

    图5 网站设置入口

  3. “网站反爬虫”配置框中,用户可根据自己的需要参照图6更改网站反爬虫的“状态”,单击“BOT设置”,进入网站反爬虫规则配置页面。

    图6 网站反爬虫配置框

  4. 选择“JS脚本反爬虫”页签,用户可根据业务需求更改JS脚本反爬虫的“状态”“防护模式”

    默认关闭JS脚本反爬虫,单击,在弹出的“警告”提示框中,单击“确定”,开启JS脚本反爬虫

    • JS脚本反爬虫依赖浏览器的Cookie机制、JavaScript解析能力,如果客户端浏览器不支持Cookie,此功能无法使用。
    • 如果您的业务接入了CDN服务,请谨慎使用JS脚本反爬虫。

      由于CDN缓存机制的影响,JS脚本反爬虫特性将无法达到预期效果,并且有可能造成页面访问异常。

  5. 根据业务配置JS脚本反爬虫规则,相关参数说明如表1所示。

    JS脚本反爬虫规则提供了“防护所有路径”“防护指定路径”两种防护动作。

    • 除了指定路径以外,防护其他所有路径
      选择“防护所有路径”,在JS脚本反爬虫规则的配置页面左上角,单击“添加排除防护路径”,配置防护路径后,单击“确定”
      图7 添加排除防护路径
    • 只防护指定路径时

      选择“防护指定路径”,在JS脚本反爬虫规则的配置页面左上角,单击“添加防护路径”,配置防护路径后,单击“确定”

      图8 添加指定防护路径
    表1 JS脚本反爬虫防护规则参数说明

    参数

    参数说明

    示例

    规则名称

    自定义规则名称。

    wafjs

    路径

    设置JS脚本反爬虫的URL链接中的路径(不包含域名)。

    URL用来定义网页的地址。基本的URL格式如下:

    协议名://域名或IP地址[:端口号]/[路径名/…/文件名]。

    例如,URL为“http://www.example.com/admin”,则“路径”设置为“/admin”

    说明:
    • 该路径不支持正则。
    • 路径里不能含有连续的多条斜线的配置,如“///admin”,WAF引擎会将“///”转为“/”

    /admin

    逻辑

    “逻辑”下拉列表中选择需要的逻辑关系。

    包含

    规则描述

    规则备注信息。

    -

开启该防护后,非浏览器的访问将不能获取业务页面。

配置CC攻击防护(限制访问频率)

开启CC攻击防护,限制单个IP/Cookie/Referer访问者对您的网站上特定路径(URL)的访问频率,缓解CC攻击对业务的影响。

  1. 登录管理控制台
  2. 进入网站设置页面入口,如图9所示。

    图9 网站设置入口

  3. 在您需要防护的域名所在行的“防护策略”栏中,单击“配置防护策略”,进入“防护配置”页面,确认“CC攻击防护”“状态”,如图10所示。

    图10 CC防护规则配置框

  4. “CC防护”规则配置页面左上角,单击“添加规则”。以IP限速和人机验证为例,添加IP限速规则,如图11所示。

    图11 配置IP限速模式

    设置成功后,当用户访问超过限制后需要输入验证码才能继续访问。

分享:

    相关文档

    相关产品