配置MRS集群组件回收站目录清理策略
操作场景
在MRS 3.2.0-LTS.1及后续版本中,MRS集群内组件默认支持数据防误删策略,在基于OBS的Hadoop大数据系统中,客户可以兼容使用Hadoop FS原生的垃圾回收功能。
组件用户删除的文件数据并不会直接被删除,而是会保存到OBS文件系统内的用户回收站目录中,本章节用于指导用户设置OBS文件系统内回收站目录的生命周期策略,以定时自动清理相关数据。
- 配置集群使用存算分离方案后,必须参考本章节内容配置相关目录的生命周期策略,否则会有存储空间被占满以及增加存储资源费用的风险,关于OBS更多计费说明请参考OBS计费概述。
- 由于回收站目录是以用户维度进行创建,当MRS集群内新创建了用户且该用户具备组件数据的删除权限时,也需要参考本章节配置新用户的回收站目录清理策略。
- 针对HBase配置存算分离的场景,在MRS 3.1.2及后续版本中,需参考本章节配置组件数据回收站清理策略。
需为MRS集群预置用户所涉及的回收站目录和其他新增的有防误删需求的用户的回收站目录配置生命周期策略。若委托权限较小或参考配置MRS集群用户的OBS的细粒度访问权限配置了MRS用户访问OBS文件系统下的目录的权限,则还需配置回收站目录的操作权限。
集群版本 |
回收站目录类型 |
组件名称 |
回收站目录 |
创建回收站目录 |
---|---|---|---|---|
MRS 3.3.0-LTS之前版本 |
MRS集群内各组件默认需至少配置的回收站目录 |
Hive |
|
对应的“.Trash”文件夹若不存在需使用omm用户通过集群客户端手动创建。 例如执行以下命令: hdfs dfs -mkdir -p obs://表所在的OBS并行文件系统名称/文件夹路径 |
Spark |
|
|||
HetuEngine |
|
|||
HBase |
|
|||
其他新增的有防误删需求的用户的回收站目录 |
Hive/Spark/HetuEngine等 |
user/<新增的业务用户>/.Trash |
||
MRS 3.3.0-LTS及之后的版本 |
MRS集群内各组件默认的回收站目录 |
Hive/Spark/HetuEngine等 |
/user/.Trash |
例如集群新增的用户具有以下权限时,也需在并行文件系统中创建对应用户回收站目录清理策略。
- 具有HDFS文件删除权限的用户。
- 具有Hive表DROP、INSERT OVERWRITE、TRUNCATE操作的用户。
- 具有HetuEngine DROP、TRUNCATE、DELETE、INSERT OVERWRITE、LOAD OVERWRITE操作权限的用户。
配置OBS目录生命周期规则
- 登录OBS控制台。
- 选择“并行文件系统”,单击当前MRS集群使用的文件系统名称。
- 选择“基础配置 > 生命周期规则”,单击“创建”,创建指定目录的生命周期规则,相关参数详细介绍请参见配置生命周期规则。
表2 生命周期规则创建参数 参数名称
描述
示例
状态
是否启用本条生命周期规则。
启用
规则名称
规则名称,可自定义,用于识别不同的生命周期配置。
rule-test
前缀
满足指定前缀的对象将受生命周期规则管理,输入的对象前缀不能包括\:*?"<>|特殊字符,不能以/开头,不能两个/相邻。如果不输入则表示配置到整个文件系统。
说明:为防止其他业务数据被误删除,不建议使用配置到整个文件系统或者层级较高的目录的生命周期规则。
生命周期规则适用的对象前缀,MRS集群组件数据回收站目录通常为如下路径,该文件夹若不存在,需提前手动创建:
user/<用户名>/.Trash
user/omm/.Trash
文件过期删除天数
策略配置范围内的对象最后一次更新后时间达到指定的天数后,对象将过期并自动被OBS删除。
30天
- 单击“确定”,完成生命周期规则配置。
若您需修改生命周期的内容,请单击该生命周期规则所在行右侧的“编辑”进行编辑;单击“禁用”,可以禁用该生命周期规则,单击“启用”,可启用该生命周期规则。
- 继续参考以上步骤,逐一创建针对当前MRS集群所有具有数据删除权限的用户的回收站目录清理策略,直至所有在OBS文件系统中的回收站目录都配置完毕。