计算
弹性云服务器 ECS
Flexus云服务
裸金属服务器 BMS
弹性伸缩 AS
镜像服务 IMS
专属主机 DeH
函数工作流 FunctionGraph
云手机服务器 CPH
Huawei Cloud EulerOS
网络
虚拟私有云 VPC
弹性公网IP EIP
虚拟专用网络 VPN
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
VPC终端节点 VPCEP
云连接 CC
企业路由器 ER
企业交换机 ESW
全球加速 GA
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
边缘安全 EdgeSec
威胁检测服务 MTD
CDN与智能边缘
内容分发网络 CDN
CloudPond云服务
智能边缘云 IEC
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
迁移中心 MGC
大数据
MapReduce服务 MRS
数据湖探索 DLI
表格存储服务 CloudTable
云搜索服务 CSS
数据接入服务 DIS
数据仓库服务 GaussDB(DWS)
数据治理中心 DataArts Studio
数据可视化 DLV
数据湖工厂 DLF
湖仓构建 LakeFormation
企业应用
云桌面 Workspace
应用与数据集成平台 ROMA Connect
云解析服务 DNS
专属云
专属计算集群 DCC
IoT物联网
IoT物联网
设备接入 IoTDA
智能边缘平台 IEF
用户服务
账号中心
费用中心
成本中心
资源中心
企业管理
工单管理
国际站常见问题
ICP备案
我的凭证
支持计划
客户运营能力
合作伙伴支持计划
专业服务
区块链
区块链服务 BCS
Web3节点引擎服务 NES
解决方案
SAP
高性能计算 HPC
视频
视频直播 Live
视频点播 VOD
媒体处理 MPC
实时音视频 SparkRTC
数字内容生产线 MetaStudio
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
存储容灾服务 SDRS
高性能弹性文件服务 SFS Turbo
弹性文件服务 SFS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
专属分布式存储服务 DSS
容器
云容器引擎 CCE
容器镜像服务 SWR
应用服务网格 ASM
华为云UCS
云容器实例 CCI
管理与监管
云监控服务 CES
统一身份认证服务 IAM
资源编排服务 RFS
云审计服务 CTS
标签管理服务 TMS
云日志服务 LTS
配置审计 Config
资源访问管理 RAM
消息通知服务 SMN
应用运维管理 AOM
应用性能管理 APM
组织 Organizations
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
应用身份管理服务 OneAccess
数据库
云数据库 RDS
文档数据库服务 DDS
数据管理服务 DAS
数据复制服务 DRS
云数据库 GeminiDB
云数据库 GaussDB
分布式数据库中间件 DDM
数据库和应用迁移 UGO
云数据库 TaurusDB
人工智能
人脸识别服务 FRS
图引擎服务 GES
图像识别 Image
内容审核 Moderation
文字识别 OCR
AI开发平台ModelArts
图像搜索 ImageSearch
对话机器人服务 CBS
华为HiLens
视频智能分析服务 VIAS
语音交互服务 SIS
应用中间件
分布式缓存服务 DCS
API网关 APIG
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
多活高可用服务 MAS
事件网格 EG
企业协同
华为云会议 Meeting
云通信
消息&短信 MSGSMS
云生态
合作伙伴中心
云商店
开发者工具
SDK开发指南
API签名指南
Terraform
华为云命令行工具服务 KooCLI
其他
产品价格详情
系统权限
管理控制台
客户关联华为云合作伙伴须知
消息中心
公共问题
开发与运维
应用管理与运维平台 ServiceStage
软件开发生产线 CodeArts
需求管理 CodeArts Req
部署 CodeArts Deploy
性能测试 CodeArts PerfTest
编译构建 CodeArts Build
流水线 CodeArts Pipeline
制品仓库 CodeArts Artifact
测试计划 CodeArts TestPlan
代码检查 CodeArts Check
代码托管 CodeArts Repo
云应用引擎 CAE
开天aPaaS
云消息服务 KooMessage
云手机服务 KooPhone
云空间服务 KooDrive

配置Spark SQL防御

更新时间:2024-11-29 GMT+08:00

操作场景

用户可以在Manager界面配置Spark的SQL防御规则,根据业务调整对应SQL防御规则的参数。

前提条件

  • 已安装包含Spark服务的集群客户端,安装目录如“/opt/hadoopclient”。
  • Spark服务运行状态正常。
  • 在租户资源中添加租户,例如创建租户sparkstatic1。
  • 对于开启了Kerberos认证的集群,需要创建一个业务用户,例如创建用户“sparkuser”,该用户属于hive、hadoop、supergroup组,主组为hive,角色绑定sparkstatic1。

使用约束

  • 防御规则默认动态生效时间为6分钟。
  • 仅支持SQL类型作业。
  • 拦截和熔断规则会中断SQL查询,请根据实际业务配置合理的值。
  • 静态规则static_0007,因Spark本身存在笛卡尔积限制(通过“spark.sql.crossJoin.enabled”控制,默认为true),若关闭此开关,会先于防御规则拦截。
  • 动态规则不支持carbon表。
  • 动态规则dynamic_0002,支持SELECT、ALTER TABLE ADD PARTITION、ALTER TABLE DROP PARTITION。若执行含判断条件的批量删除操作,如ALTER TABLE DROP PARTITION(pt < 10),由于该命令本身存在分区数限制(通过“spark.sql.dropPartitionsInBatch.limit”控制,默认1000),会先于防御规则拦截。
  • 熔断规则存在统计误差,例如规则running_0004,扫描数据量阈值配置10GB,但是因为判断周期和任务并发影响,可能在15GB甚至更高才进行熔断。
  • 熔断规则存在边界效应,例如某个Job直到最后几个task才超过阈值,在执行熔断前任务恰好完成,则无法真正取消Job。
  • 熔断规则running_0004,SQL执行时长包括Driver侧执行时间和Job运行时间,当SQL运行阻塞在Driver侧,尽管超过了熔断阈值,但是也无法取消job。此现象在存算分离场景下,INSERT OVERWRITE操作大量分区中可能出现。

操作步骤

  1. 登录FusionInsight Manager,选择“集群 > SQL防御”,打开SQL防御页面。
  2. 参考添加SQL防御规则添加针对Spark的SQL防御规则。

    Spark SQL引擎支持的各类型SQL防御规则可参考MRS SQL防御规则

    例如添加一条规则ID为“static_0001”,SQL语句中count distinct出现次数超过2就进行“提示”的规则。

    图1 添加Spark SQL防御规则

  3. 登录安装有Spark客户端的节点,执行以下命令,切换到客户端安装目录。

    cd /opt/hadoopclient

    执行以下命令,配置环境变量。

    source bigdata_env

    source Spark/component_env

  4. 安全模式(启用Kerberos认证)执行用户认证,普通模式(未启用Kerberos认证)无需执行。

    kinit Spark组件操作用户

    例如:

    kinit sparkuser

    根据提示输入用户密码,首次登录需重置密码。

  5. 执行如下命令进入spark-sql客户端:

    cd opt/client/Spark/spark/bin

    ./spark-sql

  6. 在客戶端下执行以下SQL语句,检查当前SQL防御规则是否生效。

    执行以下命令建表:

    create table table1(id int, name string) stored as parquet

    执行以下命令查询:

    select count(distinct id),count(distinct id),count(distinct id),count(distinct id),count(distinct id),count(distinct id) from table1;

    当前语句中count distinct出现次数超出2中配置规则的阈值,系统提示信息如下:

    WARNING:  static_0001 Occurrence num of 'COUNT(DISTINCT)'(6) reaches the hint threshold(2)
    若SQL防御规则中设置的动作是“拦截”,系统回显信息如下:
    Error in query: static_0001 Occurrence num of 'COUNT(DISTINCT)'(6) reaches the intercept threshold(2)

    spark beeline模式下,可通过日志来获取SQL防御详情:

    1. 登录FusionInsight Manager页面,选择“集群 > 服务 > Yarn”,在“概览”页面单击ResourceManager WebUI后的链接,进入到Yarn的WebUI界面。
    2. 在“All Applications”页面单击ID名称,进入应用详情页面.

    3. 单击应用的“Logs”,进入“Logs”页面,单击stdout全量日志,即可查看SQL防御详情,如下图所示:

    说明:
    1. 更多Spark SQL防御规则可参考MRS SQL防御规则
    2. Spark 客户端模式下,增加了query info能力,日志路径为“/opt/hadoopclient/Spark/spark/audit/query.log”,记录了每条SQL详细的运行信息以及对应的SQL防御信息,用户可以通过该日志来查看防御详情。

我们使用cookie来确保您的高速浏览体验。继续浏览本站,即表示您同意我们使用cookie。 详情

文档反馈

文档反馈

意见反馈

0/500

标记内容

同时提交标记内容