网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
企业路由器 ER
企业交换机 ESW
全球加速 GA
企业连接 EC
云原生应用网络 ANC
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
威胁检测服务 MTD
态势感知 SA
认证测试中心 CTC
边缘安全 EdgeSec
应用中间件
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
API网关 APIG
分布式缓存服务 DCS
多活高可用服务 MAS
事件网格 EG
管理与监管
统一身份认证服务 IAM
消息通知服务 SMN
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云日志服务 LTS
云审计服务 CTS
标签管理服务 TMS
配置审计 Config
应用身份管理服务 OneAccess
资源访问管理 RAM
组织 Organizations
资源编排服务 RFS
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
解决方案
高性能计算 HPC
SAP
混合云灾备
开天工业工作台 MIW
Haydn解决方案工厂
数字化诊断治理专家服务
云生态
云商店
合作伙伴中心
华为云开发者学堂
华为云慧通差旅
开发与运维
软件开发生产线 CodeArts
需求管理 CodeArts Req
流水线 CodeArts Pipeline
代码检查 CodeArts Check
编译构建 CodeArts Build
部署 CodeArts Deploy
测试计划 CodeArts TestPlan
制品仓库 CodeArts Artifact
移动应用测试 MobileAPPTest
CodeArts IDE Online
开源镜像站 Mirrors
性能测试 CodeArts PerfTest
应用管理与运维平台 ServiceStage
云应用引擎 CAE
开源治理服务 CodeArts Governance
华为云Astro轻应用
CodeArts IDE
Astro工作流 AstroFlow
代码托管 CodeArts Repo
漏洞管理服务 CodeArts Inspector
联接 CodeArtsLink
软件建模 CodeArts Modeling
Astro企业应用 AstroPro
CodeArts盘古助手
华为云Astro大屏应用
计算
弹性云服务器 ECS
Flexus云服务
裸金属服务器 BMS
云手机服务器 CPH
专属主机 DeH
弹性伸缩 AS
镜像服务 IMS
函数工作流 FunctionGraph
云耀云服务器(旧版)
VR云渲游平台 CVR
Huawei Cloud EulerOS
云化数据中心 CloudDC
网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
企业路由器 ER
企业交换机 ESW
全球加速 GA
企业连接 EC
云原生应用网络 ANC
CDN与智能边缘
内容分发网络 CDN
智能边缘云 IEC
智能边缘平台 IEF
CloudPond云服务
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
威胁检测服务 MTD
态势感知 SA
认证测试中心 CTC
边缘安全 EdgeSec
大数据
MapReduce服务 MRS
数据湖探索 DLI
表格存储服务 CloudTable
可信智能计算服务 TICS
推荐系统 RES
云搜索服务 CSS
数据可视化 DLV
数据接入服务 DIS
数据仓库服务 GaussDB(DWS)
数据治理中心 DataArts Studio
湖仓构建 LakeFormation
智能数据洞察 DataArts Insight
应用中间件
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
API网关 APIG
分布式缓存服务 DCS
多活高可用服务 MAS
事件网格 EG
开天aPaaS
应用平台 AppStage
开天企业工作台 MSSE
开天集成工作台 MSSI
API中心 API Hub
云消息服务 KooMessage
交换数据空间 EDS
云地图服务 KooMap
云手机服务 KooPhone
组织成员账号 OrgID
云空间服务 KooDrive
管理与监管
统一身份认证服务 IAM
消息通知服务 SMN
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云日志服务 LTS
云审计服务 CTS
标签管理服务 TMS
配置审计 Config
应用身份管理服务 OneAccess
资源访问管理 RAM
组织 Organizations
资源编排服务 RFS
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
区块链
区块链服务 BCS
数字资产链 DAC
华为云区块链引擎服务 HBS
解决方案
高性能计算 HPC
SAP
混合云灾备
开天工业工作台 MIW
Haydn解决方案工厂
数字化诊断治理专家服务
价格
成本优化最佳实践
专属云商业逻辑
云生态
云商店
合作伙伴中心
华为云开发者学堂
华为云慧通差旅
其他
管理控制台
消息中心
产品价格详情
系统权限
客户关联华为云合作伙伴须知
公共问题
宽限期保留期
奖励推广计划
活动
云服务信任体系能力说明
开发与运维
软件开发生产线 CodeArts
需求管理 CodeArts Req
流水线 CodeArts Pipeline
代码检查 CodeArts Check
编译构建 CodeArts Build
部署 CodeArts Deploy
测试计划 CodeArts TestPlan
制品仓库 CodeArts Artifact
移动应用测试 MobileAPPTest
CodeArts IDE Online
开源镜像站 Mirrors
性能测试 CodeArts PerfTest
应用管理与运维平台 ServiceStage
云应用引擎 CAE
开源治理服务 CodeArts Governance
华为云Astro轻应用
CodeArts IDE
Astro工作流 AstroFlow
代码托管 CodeArts Repo
漏洞管理服务 CodeArts Inspector
联接 CodeArtsLink
软件建模 CodeArts Modeling
Astro企业应用 AstroPro
CodeArts盘古助手
华为云Astro大屏应用
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
高性能弹性文件服务 SFS Turbo
弹性文件服务 SFS
存储容灾服务 SDRS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
云存储网关 CSG
专属分布式存储服务 DSS
数据工坊 DWR
地图数据 MapDS
键值存储服务 KVS
容器
云容器引擎 CCE
云容器实例 CCI
容器镜像服务 SWR
云原生服务中心 OSC
应用服务网格 ASM
华为云UCS
数据库
云数据库 RDS
数据复制服务 DRS
文档数据库服务 DDS
分布式数据库中间件 DDM
云数据库 GaussDB
云数据库 GeminiDB
数据管理服务 DAS
数据库和应用迁移 UGO
云数据库 TaurusDB
人工智能
AI开发平台ModelArts
华为HiLens
图引擎服务 GES
图像识别 Image
文字识别 OCR
自然语言处理 NLP
内容审核 Moderation
图像搜索 ImageSearch
医疗智能体 EIHealth
企业级AI应用开发专业套件 ModelArts Pro
人脸识别服务 FRS
对话机器人服务 CBS
语音交互服务 SIS
人证核身服务 IVS
视频智能分析服务 VIAS
城市智能体
自动驾驶云服务 Octopus
盘古大模型 PanguLargeModels
IoT物联网
设备接入 IoTDA
全球SIM联接 GSL
IoT数据分析 IoTA
路网数字化服务 DRIS
IoT边缘 IoTEdge
设备发放 IoTDP
企业应用
域名注册服务 Domains
云解析服务 DNS
企业门户 EWP
ICP备案
商标注册
华为云WeLink
华为云会议 Meeting
隐私保护通话 PrivateNumber
语音通话 VoiceCall
消息&短信 MSGSMS
云管理网络
SD-WAN 云服务
边缘数据中心管理 EDCM
云桌面 Workspace
应用与数据集成平台 ROMA Connect
ROMA资产中心 ROMA Exchange
API全生命周期管理 ROMA API
政企自服务管理 ESM
视频
实时音视频 SparkRTC
视频直播 Live
视频点播 VOD
媒体处理 MPC
视频接入服务 VIS
数字内容生产线 MetaStudio
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
迁移中心 MGC
专属云
专属计算集群 DCC
开发者工具
SDK开发指南
API签名指南
DevStar
华为云命令行工具服务 KooCLI
Huawei Cloud Toolkit
CodeArts API
云化转型
云架构中心
云采用框架
用户服务
账号中心
费用中心
成本中心
资源中心
企业管理
工单管理
客户运营能力
国际站常见问题
支持计划
专业服务
合作伙伴支持计划
我的凭证
华为云公共事业服务云平台
工业软件
工业数字模型驱动引擎
硬件开发工具链平台云服务
工业数据转换引擎云服务

配置元数据采集任务

更新时间:2025-02-15 GMT+08:00
分享

本章主要介绍如何通过配置元数据采集策略新建采集任务,不同类型的数据源对应的采集策略不尽相同。元数据管理依据采集任务的配置策略,采集对应的技术元数据信息。

约束与限制

  • 当元数据采集任务未指定采集范围时,默认采集该数据连接下的所有数据表/文件。采集任务运行完成后,如果该数据连接下有新增数据表/文件,则需再次运行元数据采集任务,才能采集到新增数据表/文件的元数据。
  • Oracle元数据采集前,需要确保数据连接中的数据库用户需要有数据表的读写权限以及对元数据的读取权限。详见ORACLE数据连接参数说明中的用户授权指导。
  • 受MRS集群限制,默认情况下元数据采集任务无法直接采集到Hive分区表的元数据。

    如果需要采集Hive分区表的元数据,需要在MRS集群内的HiveServer(角色)->自定义下的“hive.server.customized.configs”参数值中新增名称hive-ext.display.desc.statistic.stats,且值为true。详情请参见配置MRS集群Hive分区表支持元数据采集

前提条件

  • 元数据采集支持丰富的数据源类型,对于DWS、DLI、MRS HBase、MRS Hive、RDS和ORACLE类型的数据源,首先需要在管理中心创建数据连接。如需采集其他数据源(如OBS、CSS、GES等)元数据,无需在管理中心创建数据连接。

  • 采集Hudi元数据前,需要先在Hudi表开启“同步hive表配置”,然后才能通过采集MRS Hive元数据的方式采集Hudi表的元数据。
  • 如果需要采集Hive分区表的元数据,需要在MRS集群内的HiveServer(角色)->自定义下的“hive.server.customized.configs”参数值中新增名称hive-ext.display.desc.statistic.stats,且值为true。详情请参见配置MRS集群Hive分区表支持元数据采集

新增采集任务

  1. DataArts Studio控制台首页,选择对应工作空间的“数据目录”模块,进入数据目录页面。
  1. 选择元数据采集 > 任务管理
  2. 选择采集任务所归属的目录。如果未新建目录请参见图1创建进行。
    图1 新建采集任务的归属目录
  3. 单击页面上方“新建”或者右键单击任务菜单,单击“新增任务”,在弹出的对话框中,配置相关参数,新建采集任务。

    新建任务有如图2所示的两个入口。

    图2 新建采集任务入口
    1. 配置基本参数,参考表1
      表1 基本配置说明

      参数名

      说明

      任务名称

      采集任务的名称,只能包含中文、英文字母、数字和下划线,且长度不能超过62个字符。

      描述

      为更好的识别采集任务,此处加以描述信息。描述信息长度不能超过255个字符。

      选择目录

      采集任务的存储目录,可选择已创建的目录。目录创建请参见图1

    2. 配置数据源信息,参考表2
      表2 数据源信息参数说明

      参数名

      说明

      数据连接类型

      从下拉列表中选择数据连接类型。

      说明:

      元数据采集支持丰富的数据源类型,对于DWS、DLI、MRS HBase、MRS Hive、RDS和ORACLE类型的数据源,首先需要在管理中心创建数据连接。如需采集其他数据源(如OBS、CSS、GES等)元数据,无需在管理中心创建数据连接。

      • DWS
      • DLI
      • MRS HBase
      • MRS Hive
      • ORACLE
      • RDS

      数据连接

      • 所选数据连接类型中已创建数据连接,支持从下拉列表中选择。
      • 所选数据连接类型中未创建数据连接,请单击“新建”,创建新的数据连接。

      数据库

      (或数据库和schema、命名空间)

      呈现待采集的数据库(或数据库和schema、命名空间)和数据表。

      • 单击数据库(或数据库和schema、命名空间)后的“设置”,设置采集任务扫描的数据库(或数据库和schema、命名空间)范围。当不进行设置时,默认选择该数据连接下的所有数据库(或数据库和schema、命名空间)。
      • 单击数据表后的“设置”,设置采集任务扫描的数据表范围。当不进行设置时,默认选择数据库(或数据库和schema、命名空间)下的所有数据表。
      • 当数据库(或数据库和schema、命名空间)和数据表均不设置时,则采集任务扫描的数据范围为该数据连接下的所有数据表。
      • 单击“清除”,可对已选择的数据库(或数据库和schema、命名空间)、数据表进行修改。

      数据表

      CSS

      选择集群

      选择待采集数据存储的CSS集群。

      您也可以单击“新建”,创建CSS集群,创建完成后单击“刷新”,选择新建的CSS集群即可。

      绑定Agent

      请选择由CDM集群提供的Agent。

      用户也可以单击“新建”,创建新的Agent,创建完成后单击“刷新”,选择新的Agent即可。

      索引

      用于存储Elasticsearch的数据,类似关系型数据库的Database。是一个或多个分片分组在一起的逻辑空间。

      GES

      选择图

      选择存储了以“关系”为基础的结构数据的图。

      绑定Agent

      请选择由CDM集群提供的Agent。

      用户也可以单击“新建”,创建新的Agent,创建完成后单击“刷新”,选择新的Agent即可。

      OBS连接

      OBS桶

      选择待采集数据归属的OBS桶。

      OBS路径

      选择待采集数据在OBS桶中的存储路径。

      采集范围

      选择待采集数据的采集范围。

      • 选择“当前文件夹”,采集任务仅采集OBS路径中设置的文件夹下的对象。
      • 选择“当前文件夹和所有子文件夹”,采集任务会采集OBS路径中设置的文件夹下所有的对象,包括其子文件夹下的对象

      采集内容

      选择待采集数据的采集内容。

      • 选择“文件夹和对象”,采集任务采集文件夹和对象。
      • 选择“ 文件夹”,采集任务仅采集文件夹。

      DIS

      是否采集转储任务

      勾选“采集”表示采集转储任务。

      采集通道

      DIS服务的实例即通道。此参数表示选择通道,进行采集。

    3. 元数据采集参数配置,参考表3
      说明:

      仅当数据连接类型为DWS、DLI、MRS HBase、MRS Hive、ORACLE、RDS时,支持配置元数据采集参数。

      表3 元数据采集参数说明

      参数名

      说明

      数据源元数据已更新

      当数据连接中元数据发生变化时,通过配置更新策略,设置数据目录中元数据的更新方式。

      需要注意的是配置的更新、删除策略是作用在用户配置的数据库、数据表的范围内的。

      • 勾选“仅更新数据目录中的元数据”:采集任务仅更新数据目录已经采集到的元数据
      • 勾选“仅添加新元数据”:采集任务仅采集数据源中存在,但是数据目录中不存在的元数据
      • 勾选“更新数据目录中的元数据、添加新元数据”:采集任务全量同步数据源中的元数据
      • 勾选“忽略更新、添加操作”:不采集数据源中的元数据

      数据源元数据已删除

      当数据连接中元数据发生变化时,通过配置删除策略,设置数据目录中元数据的更新方式。

      • 勾选“从数据目录中删除元数据”:当数据源中的某些元数据已经被删除,数据目录中也将同步删除对应的元数据
      • 勾选“忽略删除”:当数据源中的某些元数据已经被删除,数据目录中不同步删除对应元数据。
    4. 勾选数据概要时的参数配置,参考表4
      说明:
      • 仅当数据连接类型为DWS、DLI时,支持配置数据概要。
      • 如无特殊需求时,建议您无需开启数据概要。开启数据概要后会对数据源端产生较大的SQL执行压力,导致元数据采集任务时间超出预期。
      表4 数据概要参数说明

      参数名

      说明

      基于全量数据

      基于已采集的全量数据在数据目录中生成数据概要。

      适用于数据量较少(100W以下)的情况。

      基于采样数据,采样数量为x

      基于已采集的全量数据在数据目录中生成数据概要。

      适用于数据量较多的情况。

      基于全量数据,随机取x%的数据

      基于已采集的全量数据在数据目录中生成数据概要。

      适用于数据量较多的情况。

      DLI队列

      选择获取profile数据,执行DLI SQL用的队列。

      勾选“采集唯一值”表示只统计已采集的表中的唯一值的个数,并在数据目录中的概要页签呈现。

    5. 数据分类配置说明(仅当数据目录组件中具备数据安全功能时,支持配置该选项;当前暂不支持关联独立数据安全组件中的敏感数据识别规则)
      • 数据分类:勾选此项参见新建数据分类(待下线)新建分类规则组或者选中已有分类规则组,实现自动识别数据并添加分类。
      • 数据分级:勾选“根据数据分类结果更新数据表密级”,表示可根据匹配的分类规则中,将密级最高的设置为表的密级。
      • 数据同步:勾选“手动同步分类结果”,表示“数据地图 > 数据目录 > 列属性”中呈现的数据列,在采集任务执行完毕后,不会自动添加分类和密级属性。需要用户前往“元数据采集 > 任务监控 ”页面,找到任务实例,选择“操作 > 更多 > 扫描结果”,查看采集任务的执行结果,确认分类结果是否匹配。勾选分类匹配字段前的复选框,单击“同步”,即可将分类和密级属性手动同步到资产。
      说明:

      仅DWS、DLI数据源支持创建采集任务时添加数据分类,实现自动识别。另外,只可给数据表的列和OBS对象添加分类。

  4. 单击“下一步”,选择调度方式,支持单次调度和周期调度两种方式。

    单次调度:超时时间表示如果任务运行的时长超过了设置的超时时间,任务会被认定运行失败。

    周期调度的相关参数配置请参见表5
    说明:
    1. 单次调度会产生手动任务的实例,手动任务的特点是没有调度依赖,只需要手动触发即可。
    2. 周期调度会产生周期实例,周期实例是周期任务达到启用调度所配置的周期性运行时间时,被自动调度起来的实例快照。
    3. 周期任务每调度一次,便生成一个实例工作流。用户可以对已调度起的实例任务进行日常的运维管理,如查看运行状态,对任务进行终止、重跑等操作。
    表5 配置周期调度参数

    参数名

    说明

    生效日期

    调度任务的生效时间段。

    调度周期

    选择调度任务的执行周期,并配置相关参数。

    • 分钟
    • 小时

    开始时间

    周期调度开始的具体时间,与生效日期中的开始时期配合使用。

    间隔时间

    两次周期调度之间的间隔时间。

    即使上一次调度任务实例未结束,从上次调度开始时间达到间隔时间后,新的调度任务实例也会开始。当前采集任务支持多实例并发运行。

    结束时间

    周期调度结束的具体时间,与生效日期中的结束时期配合使用。

    超时时间

    单次任务实例的运行超时时间,如果运行时长超过了此处设置,任务会被认定运行失败。

    启动调度

    勾选复选框,则表示立即启动此调度任务。

  5. 单击“提交”,采集任务创建成功。

管理采集任务

  1. DataArts Studio控制台首页,选择对应工作空间的“数据目录”模块,进入数据目录页面。
  1. 选择元数据采集 > 任务管理

在采集任务页面,可查看所有已创建的采集任务。

表6 管理采集任务

参数名

说明

任务名称

采集任务的名称。

单击采集任务名称,可查看该采集任务的采集策略和调度属性。

数据源类型

数据连接的名称。

调度状态

显示采集任务的调度方式,单击,可进行筛选。

调度周期

显示采集任务的调度频率,单击,可进行筛选。

描述

展示采集任务的描述信息。

创建人

展示采集任务的创建人。

最近运行时间

展示采集任务的最近运行时间。

操作

对已创建的采集任务可进行如下操作:

  • 编辑:支持对采集任务(状态为已启动、未启动、运行失败)的采集策略强相关参数进行修改,不支持修改数据源类型。
  • 运行:单击“运行”,可单次运行此采集任务,并可在“任务监控”页面查看其状态和相关日志信息。
  • 启动调度:当其状态为“已停止”,则可按照所配置的调度方式启动调度运行。
  • 停止调度:当调度状态为“调度中”,则可停止调度。

配置MRS集群Hive分区表支持元数据采集

  1. 使用admin账户登录MRS服务的Manager页面。
  2. 在Manager页面选择“集群 > 服务 > Hive > 配置 > 全部配置”,选择HiveServer(角色)->自定义,在“hive.server.customized.configs”参数值中新增hive-ext.display.desc.statistic.stats名称,值为true,如图3所示。

    图3 新增自定义参数

  3. 自定义参数配置完成后,单击左上角的“保存”,在弹窗中单击“确定”保存配置。

    图4 保存配置

  4. 保存成功后,切换到实例页签,选择配置已过期的实例后,单击“更多 > 滚动重启实例”,使配置生效。

    图5 滚动重启实例

提示

您即将访问非华为云网站,请注意账号财产安全

文档反馈

文档反馈

意见反馈

0/500

标记内容

同时提交标记内容