公共 |
- DataArts Studio必须基于华为云底座部署。资源隔离场景下,支持以全栈专属云模式部署,另外也支持以华为云Stack和HCS Online混合云模式部署。
关于全栈专属云、华为云Stack和HCS Online的适用场景和差异等更多信息,欢迎通过咨询了解。
- DataArts Studio基于数据湖底座提供数据一站式集成、开发、治理等能力,本身不具备存储和计算的能力,需要配合数据湖底座使用。
- 每个企业项目下最多绑定一个DataArts Studio实例。当企业项目下已绑定实例时,再次购买实例会失败。
- DataArts Studio各组件对不同数据源的支持程度不一,您需要按照您的业务需求来选择数据湖底座。DataArts Studio平台当前支持的数据湖产品请参见DataArts Studio支持的数据源。
|
管理中心 |
- 由于管理中心的限制,数据治理各组件(如数据架构、数据质量、数据目录等)暂不支持包含中文和“.”字符的库表名。
- DataArts Studio实例赠送的CDM集群,由于本身规格有限,推荐仅作为DataArts Studio管理中心数据连接的Agent代理使用。
- 建议为管理中心数据连接的Agent和CDM迁移作业规划相互独立的CDM集群,避免双方使用同一集群,导致业务高峰期时资源抢占引起业务不可用。
- CDM集群作为管理中心数据连接Agent时,单集群无法连接多个MRS安全集群。建议您按照业务情况规划多个Agent与MRS安全集群一一映射。
-
CDM集群作为管理中心数据连接Agent时,单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时,通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运行上限为200,超出的任务将排队等待。建议您按照业务量情况规划多个Agent分担压力。
- 单工作空间允许创建的数据连接个数最多200个。
- 管理中心相关开放API并发限制为100qps。
|
数据集成 |
- CDM作业支持自动备份和恢复,将备份数据存储到OBS中,该功能需要您手动开启。详情请参见CDM作业自动备份/恢复章节。
- CDM作业本身无配额限制,但建议作业数不超过CDM集群的vCPU核数*2,否则作业运行性能可能会受到一定影响。
- 数据集成CDM集群为单集群部署,集群故障可能会导致业务、数据损失。建议您使用数据开发作业CDM Job节点调用CDM作业,并选择两个CDM集群以提升可靠性。详情请参见CDM Job节点章节。
- 当所连接的数据源发生变化(如MRS集群扩容等情况)时,您需要重新编辑并保存该连接。
- 在驱动更新场景下,上传驱动后必须在CDM集群列表中重启集群才能更新生效。
- 单作业的抽取并发数取值范围为1-300,集群的总抽取并发数取值范围为1-1000。其中集群最大抽取并发数的设置与CDM集群规格有关,并发数上限建议配置为vCPU核数*2,作业的抽取并发数建议不超过集群的总抽取并发数,过高的并发数可能导致内存溢出,请谨慎修改。
关于数据集成中的更多约束限制,请参考CDM约束与限制。 |
数据开发 |
- 数据开发脚本、作业等资产支持备份管理,将备份数据存储到OBS中,该功能需要您手动开启。详情请参见备份管理章节。
- 脚本、作业或节点的历史运行记录依赖于OBS桶,如果未配置测试运行历史OBS桶,则无法查看历史运行的详细信息。
- 上传资源时,如果资源位置为HDFS,则只支持MRS Spark,MRS Flink Job,MRS MapReduce节点使用该资源。
- 单工作空间允许创建的脚本个数最多1万个,脚本目录最多5000个,目录层级最多为10层。
- 单工作空间允许创建的作业个数最多1万个,作业目录最多5000个,目录层级最多为10层。
- RDS SQL、DWS SQL、HIVE SQL、SPARK SQL、DLI SQL脚本执行结果页面展示最多1千条,且数据量少于3MB。超过1千条数据可以使用转储功能,转储最多支持1万条。
- 实例监控、补数据监控只能展示最近6个月的数据。
- 通知记录只能展示最近30天的数据。
- 下载中心的下载记录会每7天做老化处理,老化时下载中心记录和已转储的OBS数据会同时被删除。
|
数据架构 |
- 数据架构当前支持关系建模、维度建模(仅支持星形模型)和数据集市这三种建模方式。
- 数据架构支持最大导入文件大小为4Mb;支持最大导入指标个数为3000个;支持一次最大导出500张表。
- 单工作空间中创建各类对象的配额如下:
- 主题5000个。
- 数据标准目录500条,个数20000个。
- 业务指标100000个。
- 原子指标、衍生指标、复合指标各5000条。
-
配置中心中各类对象的自定义项配额如下:
- 主题自定义项10条。
- 表自定义项30条。
- 属性自定义项10条。
- 业务指标自定义项50条。
|
数据质量 |
- 数据质量作业执行时长依赖数据引擎,如果底层数据引擎资源不足,可能会导致运行速度变慢。
- 单个数据质量作业最多可以配置50条规则,如有需要可拆分为多个质量作业。
- 单个数据连接上的质量作业关联SQL的并发数默认为1000,如果超出则等待排队执行。可配置范围10-1000。
- 单Region内的质量作业关联SQL的并发数为10000,如果超出则等待排队执行。
- 业务指标监控模块总览中的实例运行状态和实例告警状态支持按照7天展示,告警趋势、业务看板、指标看板支持按照7天、15天和30天展示。
- 数据质量监控模块总览中的变化趋势支持按照30天展示,质量告警分类趋势和规则数量趋势支持按照7天展示。
- 质量报告采用T+1日定时批量生成,质量报告数据保留90天。
- 导出质量报告至OBS,会将质量报告导出到工作空间中配置的作业日志OBS路径中,导出记录保留3个月。
|
数据目录 |
- 单工作空间中元数据采集任务最多创建100个。
- 元数据采集任务通过执行引擎相关的DDL SQL获取,不建议单个任务采集超过1000张表。如有需要可拆分为多个采集任务,另外调度时间和频次也需要根据业务需要进行合理设置,避免对引擎造成较大的访问和连接压力,设置建议如下:
- 若业务对元数据时效性要求为1天,则设置调度周期=max(1天,单次采集周期时间),其他情况同理。
- 若业务压力集中在白天,则设置调度时间在夜间,其他情况同理,选择数据源压力最小的时间段。
- 数据血缘的产生依赖于数据开发中调度运行的作业,测试运行的作业不会产生血缘。
- 元数据采集模块总览中的数据连接历史统计支持按照7天、15天和30天展示。
|
数据服务 |
- 数据服务共享版仅供开发测试使用,专享版性能优于共享版,推荐使用数据服务专享版。
- DataArts Studio实例下最多支持创建5个数据服务专享版集群,且集群需要与某个工作空间绑定,不能多空间共用同一集群。
- 数据服务专享版集群创建后暂不支持修改规格或升级版本。
- DataArts Studio实例下支持创建的专享版API最大数量由数据服务专享版API总分配配额(默认为5000)和当前实例下集群的API规格总和共同决定,取较小的作为限制。例如,某DataArts Studio实例下的数据服务专享版API总分配配额为5000,已分别创建了API规格为500和2000的两个集群,则当前实例下支持创建的专享版API最大数量为2500。
- 单工作空间下支持创建的专享版API最大数量由数据服务专享版API已分配配额(通过编辑工作空间信息分配)和当前空间下集群的API规格总和共同决定,取较小的作为限制。例如,某工作空间下的数据服务专享版API已分配配额为800,当前工作空间下已创建了API规格为500的两个集群,则当前工作空间下支持创建的专享版API最大数量为800。
- 单工作空间下支持创建的应用数量为1000。
- 单工作空间下支持创建的流控策略数量为500。
- 数据服务支持跟踪并保存事件。对于每个事件,数据服务会报告事件发生日期、说明、时间源(某个集群)等信息,事件保存时长为30天。
- 数据服务专享版日志信息仅查询集群最近100条访问记录,均分至集群全部所属节点中获取。
- 总览中的调用趋势、发布趋势、调用比率top5、调用时间top5和调用次数top5支持按照近12小时、近1天、近7天和近30天展示,总调用数为前7天数据总和(不含当天)。
|
数据安全 |
- 数据安全中配置的安全管理员,当且仅当在数据安全组件生效,对于周边组件和其他服务,此身份无效。
- 数据安全中功能级别的约束限制,请参考用户指南中对应功能的“约束与限制”章节。
|