计算
弹性云服务器 ECS
Flexus云服务
裸金属服务器 BMS
弹性伸缩 AS
镜像服务 IMS
专属主机 DeH
函数工作流 FunctionGraph
云手机服务器 CPH
Huawei Cloud EulerOS
网络
虚拟私有云 VPC
弹性公网IP EIP
虚拟专用网络 VPN
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
VPC终端节点 VPCEP
云连接 CC
企业路由器 ER
企业交换机 ESW
全球加速 GA
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
边缘安全 EdgeSec
威胁检测服务 MTD
CDN与智能边缘
内容分发网络 CDN
CloudPond云服务
智能边缘云 IEC
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
迁移中心 MGC
大数据
MapReduce服务 MRS
数据湖探索 DLI
表格存储服务 CloudTable
云搜索服务 CSS
数据接入服务 DIS
数据仓库服务 GaussDB(DWS)
数据治理中心 DataArts Studio
数据可视化 DLV
数据湖工厂 DLF
湖仓构建 LakeFormation
企业应用
云桌面 Workspace
应用与数据集成平台 ROMA Connect
云解析服务 DNS
专属云
专属计算集群 DCC
IoT物联网
IoT物联网
设备接入 IoTDA
智能边缘平台 IEF
用户服务
账号中心
费用中心
成本中心
资源中心
企业管理
工单管理
国际站常见问题
ICP备案
我的凭证
支持计划
客户运营能力
合作伙伴支持计划
专业服务
区块链
区块链服务 BCS
Web3节点引擎服务 NES
解决方案
SAP
高性能计算 HPC
视频
视频直播 Live
视频点播 VOD
媒体处理 MPC
实时音视频 SparkRTC
数字内容生产线 MetaStudio
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
存储容灾服务 SDRS
高性能弹性文件服务 SFS Turbo
弹性文件服务 SFS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
专属分布式存储服务 DSS
容器
云容器引擎 CCE
容器镜像服务 SWR
应用服务网格 ASM
华为云UCS
云容器实例 CCI
管理与监管
云监控服务 CES
统一身份认证服务 IAM
资源编排服务 RFS
云审计服务 CTS
标签管理服务 TMS
云日志服务 LTS
配置审计 Config
资源访问管理 RAM
消息通知服务 SMN
应用运维管理 AOM
应用性能管理 APM
组织 Organizations
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
应用身份管理服务 OneAccess
数据库
云数据库 RDS
文档数据库服务 DDS
数据管理服务 DAS
数据复制服务 DRS
云数据库 GeminiDB
云数据库 GaussDB
分布式数据库中间件 DDM
数据库和应用迁移 UGO
云数据库 TaurusDB
人工智能
人脸识别服务 FRS
图引擎服务 GES
图像识别 Image
内容审核 Moderation
文字识别 OCR
AI开发平台ModelArts
图像搜索 ImageSearch
对话机器人服务 CBS
华为HiLens
视频智能分析服务 VIAS
语音交互服务 SIS
应用中间件
分布式缓存服务 DCS
API网关 APIG
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
多活高可用服务 MAS
事件网格 EG
企业协同
华为云会议 Meeting
云通信
消息&短信 MSGSMS
云生态
合作伙伴中心
云商店
开发者工具
SDK开发指南
API签名指南
Terraform
华为云命令行工具服务 KooCLI
其他
产品价格详情
系统权限
管理控制台
客户关联华为云合作伙伴须知
消息中心
公共问题
开发与运维
应用管理与运维平台 ServiceStage
软件开发生产线 CodeArts
需求管理 CodeArts Req
部署 CodeArts Deploy
性能测试 CodeArts PerfTest
编译构建 CodeArts Build
流水线 CodeArts Pipeline
制品仓库 CodeArts Artifact
测试计划 CodeArts TestPlan
代码检查 CodeArts Check
代码托管 CodeArts Repo
云应用引擎 CAE
开天aPaaS
云消息服务 KooMessage
云手机服务 KooPhone
云空间服务 KooDrive

配置元数据采集任务

更新时间:2025-02-27 GMT+08:00

本章主要介绍如何通过配置元数据采集策略新建采集任务,不同类型的数据源对应的采集策略不尽相同。元数据管理依据采集任务的配置策略,采集对应的技术元数据信息。

约束与限制

  • 当元数据采集任务未指定采集范围时,默认采集该数据连接下的所有数据表/文件。采集任务运行完成后,如果该数据连接下有新增数据表/文件,则需再次运行元数据采集任务,才能采集到新增数据表/文件的元数据。
  • Oracle元数据采集前,需要确保数据连接中的数据库用户需要有数据表的读写权限以及对元数据的读取权限。详见ORACLE数据连接参数说明中的用户授权指导。
  • 受MRS集群限制,默认情况下元数据采集任务无法直接采集到Hive分区表的元数据。

    如果需要采集Hive分区表的元数据,需要在MRS集群内的HiveServer(角色)->自定义下的“hive.server.customized.configs”参数值中新增名称hive-ext.display.desc.statistic.stats,且值为true。详情请参见配置MRS集群Hive分区表支持元数据采集

前提条件

  • 元数据采集支持丰富的数据源类型,对于DWS、DLI、MRS HBase、MRS Hive、RDS和ORACLE类型的数据源,首先需要在管理中心创建数据连接。如需采集其他数据源(如OBS、CSS、GES等)元数据,无需在管理中心创建数据连接。

  • 采集Hudi元数据前,需要先在Hudi表开启“同步hive表配置”,然后才能通过采集MRS Hive元数据的方式采集Hudi表的元数据。
  • 如果需要采集Hive分区表的元数据,需要在MRS集群内的HiveServer(角色)->自定义下的“hive.server.customized.configs”参数值中新增名称hive-ext.display.desc.statistic.stats,且值为true。详情请参见配置MRS集群Hive分区表支持元数据采集

新增采集任务

  1. DataArts Studio控制台首页,选择对应工作空间的“数据目录”模块,进入数据目录页面。
  1. 选择元数据采集 > 任务管理
  2. 选择采集任务所归属的目录。如果未新建目录请参见图1创建进行。
    图1 新建采集任务的归属目录
  3. 单击页面上方“新建”或者右键单击任务菜单,单击“新增任务”,在弹出的对话框中,配置相关参数,新建采集任务。

    新建任务有如图2所示的两个入口。

    图2 新建采集任务入口
    1. 配置基本参数,参考表1
      表1 基本配置说明

      参数名

      说明

      任务名称

      采集任务的名称,只能包含中文、英文字母、数字和下划线,且长度不能超过62个字符。

      描述

      为更好的识别采集任务,此处加以描述信息。描述信息长度不能超过255个字符。

      选择目录

      采集任务的存储目录,可选择已创建的目录。目录创建请参见图1

    2. 配置数据源信息,参考表2
      表2 数据源信息参数说明

      参数名

      说明

      数据连接类型

      从下拉列表中选择数据连接类型。

      说明:

      元数据采集支持丰富的数据源类型,对于DWS、DLI、MRS HBase、MRS Hive、RDS和ORACLE类型的数据源,首先需要在管理中心创建数据连接。如需采集其他数据源(如OBS、CSS、GES等)元数据,无需在管理中心创建数据连接。

      • DWS
      • DLI
      • MRS HBase
      • MRS Hive
      • ORACLE
      • RDS

      数据连接

      • 所选数据连接类型中已创建数据连接,支持从下拉列表中选择。
      • 所选数据连接类型中未创建数据连接,请单击“新建”,创建新的数据连接。

      数据库

      (或数据库和schema、命名空间)

      呈现待采集的数据库(或数据库和schema、命名空间)和数据表。

      • 单击数据库(或数据库和schema、命名空间)后的“设置”,设置采集任务扫描的数据库(或数据库和schema、命名空间)范围。当不进行设置时,默认选择该数据连接下的所有数据库(或数据库和schema、命名空间)。
      • 单击数据表后的“设置”,设置采集任务扫描的数据表范围。当不进行设置时,默认选择数据库(或数据库和schema、命名空间)下的所有数据表。
      • 当数据库(或数据库和schema、命名空间)和数据表均不设置时,则采集任务扫描的数据范围为该数据连接下的所有数据表。
      • 单击“清除”,可对已选择的数据库(或数据库和schema、命名空间)、数据表进行修改。

      数据表

      CSS

      选择集群

      选择待采集数据存储的CSS集群。

      您也可以单击“新建”,创建CSS集群,创建完成后单击“刷新”,选择新建的CSS集群即可。

      绑定Agent

      请选择由CDM集群提供的Agent。

      用户也可以单击“新建”,创建新的Agent,创建完成后单击“刷新”,选择新的Agent即可。

      索引

      用于存储Elasticsearch的数据,类似关系型数据库的Database。是一个或多个分片分组在一起的逻辑空间。

      GES

      选择图

      选择存储了以“关系”为基础的结构数据的图。

      绑定Agent

      请选择由CDM集群提供的Agent。

      用户也可以单击“新建”,创建新的Agent,创建完成后单击“刷新”,选择新的Agent即可。

      OBS连接

      OBS桶

      选择待采集数据归属的OBS桶。

      OBS路径

      选择待采集数据在OBS桶中的存储路径。

      采集范围

      选择待采集数据的采集范围。

      • 选择“当前文件夹”,采集任务仅采集OBS路径中设置的文件夹下的对象。
      • 选择“当前文件夹和所有子文件夹”,采集任务会采集OBS路径中设置的文件夹下所有的对象,包括其子文件夹下的对象

      采集内容

      选择待采集数据的采集内容。

      • 选择“文件夹和对象”,采集任务采集文件夹和对象。
      • 选择“ 文件夹”,采集任务仅采集文件夹。

      DIS

      是否采集转储任务

      勾选“采集”表示采集转储任务。

      采集通道

      DIS服务的实例即通道。此参数表示选择通道,进行采集。

    3. 元数据采集参数配置,参考表3
      说明:

      仅当数据连接类型为DWS、DLI、MRS HBase、MRS Hive、ORACLE、RDS时,支持配置元数据采集参数。

      表3 元数据采集参数说明

      参数名

      说明

      数据源元数据已更新

      当数据连接中元数据发生变化时,通过配置更新策略,设置数据目录中元数据的更新方式。

      需要注意的是配置的更新、删除策略是作用在用户配置的数据库、数据表的范围内的。

      • 勾选“仅更新数据目录中的元数据”:采集任务仅更新数据目录已经采集到的元数据
      • 勾选“仅添加新元数据”:采集任务仅采集数据源中存在,但是数据目录中不存在的元数据
      • 勾选“更新数据目录中的元数据、添加新元数据”:采集任务全量同步数据源中的元数据
      • 勾选“忽略更新、添加操作”:不采集数据源中的元数据

      数据源元数据已删除

      当数据连接中元数据发生变化时,通过配置删除策略,设置数据目录中元数据的更新方式。

      • 勾选“从数据目录中删除元数据”:当数据源中的某些元数据已经被删除,数据目录中也将同步删除对应的元数据
      • 勾选“忽略删除”:当数据源中的某些元数据已经被删除,数据目录中不同步删除对应元数据。
    4. 勾选数据概要时的参数配置,参考表4
      说明:
      • 仅当数据连接类型为DWS、DLI时,支持配置数据概要。
      • 如无特殊需求时,建议您无需开启数据概要。开启数据概要后会对数据源端产生较大的SQL执行压力,导致元数据采集任务时间超出预期。
      表4 数据概要参数说明

      参数名

      说明

      基于全量数据

      基于已采集的全量数据在数据目录中生成数据概要。

      适用于数据量较少(100W以下)的情况。

      基于采样数据,采样数量为x

      基于已采集的全量数据在数据目录中生成数据概要。

      适用于数据量较多的情况。

      基于全量数据,随机取x%的数据

      基于已采集的全量数据在数据目录中生成数据概要。

      适用于数据量较多的情况。

      DLI队列

      选择获取profile数据,执行DLI SQL用的队列。

      勾选“采集唯一值”表示只统计已采集的表中的唯一值的个数,并在数据目录中的概要页签呈现。

    5. 数据分类配置说明(仅当数据目录组件中具备数据安全功能时,支持配置该选项;当前暂不支持关联独立数据安全组件中的敏感数据识别规则)
      • 数据分类:勾选此项参见新建数据分类(待下线)新建分类规则组或者选中已有分类规则组,实现自动识别数据并添加分类。
      • 数据分级:勾选“根据数据分类结果更新数据表密级”,表示可根据匹配的分类规则中,将密级最高的设置为表的密级。
      • 数据同步:勾选“手动同步分类结果”,表示“数据地图 > 数据目录 > 列属性”中呈现的数据列,在采集任务执行完毕后,不会自动添加分类和密级属性。需要用户前往“元数据采集 > 任务监控 ”页面,找到任务实例,选择“操作 > 更多 > 扫描结果”,查看采集任务的执行结果,确认分类结果是否匹配。勾选分类匹配字段前的复选框,单击“同步”,即可将分类和密级属性手动同步到资产。
      说明:

      仅DWS、DLI数据源支持创建采集任务时添加数据分类,实现自动识别。另外,只可给数据表的列和OBS对象添加分类。

  4. 单击“下一步”,选择调度方式,支持单次调度和周期调度两种方式。

    单次调度:超时时间表示如果任务运行的时长超过了设置的超时时间,任务会被认定运行失败。

    周期调度的相关参数配置请参见表5
    说明:
    1. 单次调度会产生手动任务的实例,手动任务的特点是没有调度依赖,只需要手动触发即可。
    2. 周期调度会产生周期实例,周期实例是周期任务达到启用调度所配置的周期性运行时间时,被自动调度起来的实例快照。
    3. 周期任务每调度一次,便生成一个实例工作流。用户可以对已调度起的实例任务进行日常的运维管理,如查看运行状态,对任务进行终止、重跑等操作。
    表5 配置周期调度参数

    参数名

    说明

    生效日期

    调度任务的生效时间段。

    调度周期

    选择调度任务的执行周期,并配置相关参数。

    • 分钟
    • 小时

    开始时间

    周期调度开始的具体时间,与生效日期中的开始时期配合使用。

    间隔时间

    两次周期调度之间的间隔时间。

    即使上一次调度任务实例未结束,从上次调度开始时间达到间隔时间后,新的调度任务实例也会开始。当前采集任务支持多实例并发运行。

    结束时间

    周期调度结束的具体时间,与生效日期中的结束时期配合使用。

    超时时间

    单次任务实例的运行超时时间,如果运行时长超过了此处设置,任务会被认定运行失败。

    启动调度

    勾选复选框,则表示立即启动此调度任务。

  5. 单击“提交”,采集任务创建成功。

管理采集任务

  1. DataArts Studio控制台首页,选择对应工作空间的“数据目录”模块,进入数据目录页面。
  1. 选择元数据采集 > 任务管理

在采集任务页面,可查看所有已创建的采集任务。

表6 管理采集任务

参数名

说明

任务名称

采集任务的名称。

单击采集任务名称,可查看该采集任务的采集策略和调度属性。

数据源类型

数据连接的名称。

调度状态

显示采集任务的调度方式,单击,可进行筛选。

调度周期

显示采集任务的调度频率,单击,可进行筛选。

描述

展示采集任务的描述信息。

创建人

展示采集任务的创建人。

最近运行时间

展示采集任务的最近运行时间。

操作

对已创建的采集任务可进行如下操作:

  • 编辑:支持对采集任务(状态为已启动、未启动、运行失败)的采集策略强相关参数进行修改,不支持修改数据源类型。
  • 运行:单击“运行”,可单次运行此采集任务,并可在“任务监控”页面查看其状态和相关日志信息。
  • 启动调度:当其状态为“已停止”,则可按照所配置的调度方式启动调度运行。
  • 停止调度:当调度状态为“调度中”,则可停止调度。

配置MRS集群Hive分区表支持元数据采集

  1. 使用admin账户登录MRS服务的Manager页面。
  2. 在Manager页面选择“集群 > 服务 > Hive > 配置 > 全部配置”,选择HiveServer(角色)->自定义,在“hive.server.customized.configs”参数值中新增hive-ext.display.desc.statistic.stats名称,值为true,如图3所示。

    图3 新增自定义参数

  3. 自定义参数配置完成后,单击左上角的“保存”,在弹窗中单击“确定”保存配置。

    图4 保存配置

  4. 保存成功后,切换到实例页签,选择配置已过期的实例后,单击“更多 > 滚动重启实例”,使配置生效。

    图5 滚动重启实例

我们使用cookie来确保您的高速浏览体验。继续浏览本站,即表示您同意我们使用cookie。 详情

文档反馈

文档反馈

意见反馈

0/500

标记内容

同时提交标记内容