通过配置反爬虫防护策略阻止爬虫攻击
网络爬虫为网络信息收集与查询提供了极大的便利,但同时也对网络安全产生以下负面影响:
- 网络爬虫会根据特定策略尽可能多的“爬过”网站中的高价值信息,占用服务器带宽,增加服务器的负载
- 恶意用户利用网络爬虫对Web服务发动DoS攻击,可能使Web服务资源耗尽而不能提供正常服务
- 恶意用户利用网络爬虫抓取各种敏感信息,造成网站的核心数据被窃取,损害企业经济利益
Web应用防火墙可以通过Robot检测(识别User-Agent)、网站反爬虫(检查浏览器合法性)和CC攻击防护(限制访问频率)三个反爬虫策略,全方位帮您解决业务网站遭受的爬虫问题。
前提条件
域名已成功接入WAF。
开启Robot检测(识别User-Agent)
开启Robot检测后,WAF可以检测和拦截恶意爬虫、扫描器、网马等威胁。
- 登录管理控制台。
- 单击管理控制台左上角的,选择区域或项目。
- 单击页面左上方的,选择 。
- 在左侧导航树中,选择“网站设置”,进入“网站设置”页面。
- 在目标域名所在行的“防护策略”栏中,单击“已开启N项防护”,进入“防护策略”页面。
- 确认“Web基础防护”的状态为。
- 单击“高级设置”,在“防护配置”页面,开启“常规检测”和“Webshell检测”开关。
- 在“网站反爬虫”配置框中,开启网站反爬虫。单击“网站反爬虫设置”,进入网站反爬虫规则配置页面。
- 在“特征反爬虫”页面,根据您的业务场景,开启合适的防护功能。
当WAF检测到恶意爬虫、扫描器等对网站进行爬取时,将立即拦截并记录该事件,您可以在“防护事件”页面查看爬虫防护日志。
开启网站反爬虫(检查浏览器合法性)
开启网站反爬虫,WAF可以动态分析网站业务模型,结合人机识别技术和数据风控手段,精准识别爬虫行为。
- 登录管理控制台。
- 单击管理控制台左上角的,选择区域或项目。
- 单击页面左上方的,选择 。
- 在左侧导航树中,选择“网站设置”,进入“网站设置”页面。
- 在目标域名所在行的“防护策略”栏中,单击“已开启N项防护”,进入“防护策略”页面。
- 在“网站反爬虫”配置框中,用户可根据自己的需要更改网站反爬虫的“状态”,单击“网站反爬虫设置”,进入网站反爬虫规则配置页面。
- 根据业务配置JS脚本反爬虫规则,相关参数说明如表1所示。
JS脚本反爬虫规则提供了“防护所有请求”和“防护指定请求”两种防护动作。
表1 JS脚本反爬虫防护规则参数说明 参数
参数说明
示例
规则名称
自定义规则名称。
wafjs
路径
设置JS脚本反爬虫的URL链接中的路径(不包含域名)。
URL用来定义网页的地址。基本的URL格式如下:
协议名://域名或IP地址[:端口号]/[路径名/…/文件名]。
例如,URL为“http://www.example.com/admin”,则“路径”设置为“/admin”。
说明:- 该路径不支持正则。
- 路径里不能含有连续的多条斜线的配置,如“///admin”,WAF引擎会将“///”转为“/”。
/admin
逻辑
在“逻辑”下拉列表中选择需要的逻辑关系。
包含
规则描述
规则备注信息。
-
生效时间
立即生效
立即生效
配置CC攻击防护(限制访问频率)
开启CC攻击防护,限制单个IP/Cookie/Referer访问者对您的网站上特定路径(URL)的访问频率,缓解CC攻击对业务的影响。
- 登录管理控制台。
- 单击管理控制台左上角的,选择区域或项目。
- 单击页面左上方的,选择 。
- 在左侧导航树中,选择“网站设置”,进入“网站设置”页面。
- 在目标域名所在行的“防护策略”栏中,单击“已开启N项防护”,进入“防护策略”页面,确认“CC攻击防护”的“状态”为“开启”。
- 在“CC攻击防护”规则配置列表的左上方,单击“添加规则”。以IP限速和人机验证为例,添加IP限速规则,如图1所示。
设置成功后,当用户访问超过限制后需要输入验证码才能继续访问。