数据仓库中的ETL是指以下

GaussDB(DWS)是一款具备分析及混合负载能力的分布式数据库，支持x86和Kunpeng硬件架构，支持行存储与列存储，提供GB~PB级数据分析能力、多模分析和实时处理能力，用于数据仓库、数据集市、实时分析、实时决策和混合负载等场景，广泛应用于汽车、制造、零售、物流、互联网、金融、政府、电信等行业分析决策系统

新客秒杀 2核2G 3M L实例

68元/年

普惠上云领千元上云礼券

立即前往

企业专享 X实例 4核8G 5M

888元/年

热门域名 1元随心购

1元/年起

免费体验中心

90+款云产品，最长可无限期免费试用

个人用户企业用户

免费

Flexus应用服务器L实例

即开即用，轻松运维，简单上云

新用户专享限购1台

¥0.00

云数据库免费试用

金融核心交易系统、政企OA办公等场景适用

注册申请

¥0.00

域名注册服务Domains

.com .cn多款热门域名

新用户专享限购1个

立即前往

华为云企业邮箱免费试用

即开即用，不限账号数

无限邮箱容量 4GB超大附件

¥0.00

免费试用

会打字就会建站

3300+模板，30000+企业选择

立即购买

跨境电商建站

10分钟快速建站，低成本开启跨境生意

试用14天跨境电商

￥0.00

/次

好会计，免费试用

全场景智能报销

免费体验15天

¥0.00

元/年

零代码构建平台

创建nocosys平台客户账号

智能协作企业办公

¥0.00

元/次

数据仓库中的ETL是指以下更多内容

ETL Job

挂起当前作业执行计划：当前作业实例的状态为运行异常，该节点的后续节点以及依赖于当前作业的后续作业实例都会处于等待运行状态。是否空跑否如果勾选了空跑，该节点不会实际执行，将直接返回成功。任务组否选择任务组。任务组配置好后，可以更细粒度的进行当前任务组中的作业节点的并发数控制，比如作业中包含多个节点、补数据、重跑等场景。

来自：帮助中心

查看更多 →
ETL映射设计

MERGE：加载数据时，插入目标表中不存在的数据，更新目标表中存在的数据源模型需要进行ETL映射的源端物理模型，需要在物理模型设计中先完成设计目标模型需要进行ETL映射的目标端物理模型，需要在物理模型设计中先完成设计目标表选择目标模型中配置的表是否删除数据选择是否删除目标模型中的表数据源表

来自：帮助中心

查看更多 →
什么是数据仓库服务

接收来自应用的访问请求，并向客户端返回执行结果；负责分解任务，并调度任务分片在各DN上并行执行。集群中，CN有多个并且CN的角色是对等的（执行DML语句时连接到任何一个CN都可以得到一致的结果）。只需要在CN和应用程序之间增加一个负载均衡器，使得CN对应用是透明的。CN故障时，

来自：帮助中心

查看更多 →
ETL Mapping

成的ETL脚本同步到 DataArts Studio 作业指定的目录。前提：已在本空间的方案设计中创建ETL Mapping脚本。参考ETL映射设计。该账号下已开通DataArts Studio服务。已在该DataArts Studio服务中创建相应的数据连接，以便基于数据连接同步作业以及后续在DataArts

来自：帮助中心

查看更多 →
数据使能方案实施

转换（Transform）：在这个阶段，提取的数据经过一系列的转换操作，以满足目标系统的需求。转换操作可以包括数据清洗、数据格式转换、数据合并、数据计算等。转换的目的是将数据转化为目标系统所需的结构和格式，并进行必要的数据处理和修正。加载（Load）：在这个阶段，经过转换后的数据被加载到目标系统中，通常是一个

来自：帮助中心

查看更多 →
元数据简介

按照传统的定义，元数据（Metadata）是关于数据的数据。元数据打通了源数据、数据仓库、数据应用，记录了数据从产生到消费的全过程。元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。在数据仓库系统中，元数据可以帮助数据仓库管理员和

来自：帮助中心

查看更多 →
数据仓库

数据仓库华为云数据仓库高级工程师培训父主题：培训服务

来自：帮助中心

查看更多 →
为什么要使用云数据仓库服务GaussDB(DWS) ？

业务的延时甚至中断。解决方案数据仓库主要适用于企业数据的关联和聚合等分析场景，并从中发掘出数据背后的商业信息供决策者参考。这里的数据发掘主要指涉及多张表的大范围数据聚合和关联的复杂查询。使用数据仓库，通过某个数据转换（ETL）的过程，业务运营数据库的数据可以被拷贝到数据仓

来自：帮助中心

查看更多 →
数据仓库

octopus:dataWarehouse:list √ √ 获取数据仓库的数据列表 POST /v1.0/{project_id}/common/warehouses/{data_warehouse_id}/data octopus:dataWarehouse:list √ √ 父主题：权限和授权项

来自：帮助中心

查看更多 →
数据仓库

数据仓库获取数据仓库列表信息获取数据仓库的数据列表父主题： API

来自：帮助中心

查看更多 →
应用场景

建模数据；在大体量的地理大数据中，通过高效的挖掘工具或者挖掘方法实现价值提炼，是用户非常关注的话题。优势提供地理专业算子：支持全栈Spark能力，具备丰富的Spark空间数据分析算法算子，全面支持结构化的遥感影像数据、非结构化的三维建模、激光点云等巨量数据的离线批处理，支持带有位置属性的动态流数据实时计算处理。

来自：帮助中心

查看更多 →
Hive应用开发简介

Hive应用开发简介 Hive简介 Hive是一个开源的，建立在Hadoop上的数据仓库框架，提供类似SQL的HiveQL语言操作结构化数据，其基本原理是将HiveQL语言自动转换成MapReduce任务或Spark任务，从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下：

来自：帮助中心

查看更多 →
Hive应用开发简介

Hive应用开发简介 Hive简介 Hive是一个开源的，建立在Hadoop上的数据仓库框架，提供类似SQL的HQL语言操作结构化数据，其基本原理是将HQL语言自动转换成MapReduce任务或Spark任务，从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下：

来自：帮助中心

查看更多 →
数据仓库规格

化业务，创建集群时可选择带有h1的节点规格，规格详情请参见表3。存算一体本地盘规格，该规格存储容量固定，不能够进行磁盘扩容，只能进行节点扩容，规格详情请参见表4。步长指在集群变配过程中增大或减小磁盘大小的间隔大小。用户在操作时需要按照对应规格的存储步长来选择。表1 存算一体1:8云盘规格

来自：帮助中心

查看更多 →
数据仓库类型

布，但是元数据和索引存储在本地，仍然需要进行重分布。存算分离表在重分布时，表只支持读，元数据的重分布时间一般比较短，但是，如果表上创建了索引，索引会影响重分布的性能，重分布完成时间与索引的数据量成正比关系，在此期间，表只支持读。存算一体（单机部署）不支持分布式模式，因此不支持扩缩容、逻辑集群、资源管理等操作。

来自：帮助中心

查看更多 →
产品介绍

库过程中遇到的问题咨询和解答（限于华为产品已验证过的第三方产品）。应用联调与上线支持：在应用与生产环境数据仓库的正式对接联调时，由于测试环境与生产环境的本质差异，生产环境易出现测试环境未能遭遇的问题，协助处理未知问题。国产化改造：在数据仓库国产化转型过程中，提供数据仓库国产化

来自：帮助中心

查看更多 →
应用场景

以 GaussDB (DWS)的SQL作为上层应用的统一入口，应用开发人员使用熟悉的SQL语言即可访问所有数据。实时交互分析针对即时的分析需求，分析人员可实时从大数据平台上获取信息。弹性伸缩增加节点，即可扩展系统的数据存储能力和查询分析的性能，可支持PB级数据的存储和计算。增强型ETL和实时BI分析数据仓

来自：帮助中心

查看更多 →
概述与连接管理

数据开发包含脚本开发和作业调度，脚本开发主要是指SQL的ETL脚本，数据从贴源层到集市层的加工和流动，作业是对数据入湖、ETL脚本、数据质量等进行时间编排和按照计划周期性执行。连接管理登录管理中心 > 单击右侧数据连接 > 单击创建数据连接 > 选择对应的数据库类型 > 进行用户密码验证 >

来自：帮助中心

查看更多 →
Hive应用开发简介

Hive应用开发简介 Hive简介 Hive是一个开源的，建立在Hadoop上的数据仓库框架，提供类似SQL的HQL语言操作结构化数据，其基本原理是将HQL语言自动转换成Mapreduce任务或Spark任务，从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下：

来自：帮助中心

查看更多 →
数据使能方案设计

Standards）是进行数据标准化的主要依据，构建一套完整的数据标准体系是开展数据标准管理工作的良好基础，有利于打通数据底层的互通性，提升数据的可用性。数据标准是指保障数据的内外部使用和交换的一致性和准确性的规范性约束，是对数据的名称、含义、结构、取值等信息的统一定义和规范，以达成对数据的业务理解、技术实现的一致。

来自：帮助中心

查看更多 →
作业开发

每个开发算子的失败策略为“终止后续节点执行计划” 建议每个画布中的作业算子不超过20个。按事实表创建调度作业画布按照DWR层事实表作业 > DWR层汇总表作业顺序排列每个作业使用作业开发算子，每个算子关联对应的ETL脚本每个开发算子的失败策略为“终止后续节点执行计划” 建议每个画布中的作业算子不超过20个按质量作业创建调度作业画布

来自：帮助中心

查看更多 →