etl的含义 更多内容
  • 三方工具兼容

    为了让用户使用数据库更便捷,DWS一方面在努力自主研发工具,另一方面也在逐步构建与国内外业界主流数据库工具对接。数据库外围工具种类丰富、标准繁多,目前DWS兼容工具类别主要包括:BI工具、ETL工具、报表工具、数据挖掘、数据复制、数据集成、备份恢复、安全、运维监控、云平台、Web中间件等

    来自:帮助中心

    查看更多 →

  • 数据建模

    基于对企业业务流程及业务过程调研,对需要构建事实模型进行汇总。其中,业务流程包含多个业务过程。 图5 业务流程及过程管理1 图6 业务流程及过程管理2 总线矩阵 完成业务实体、业务流程、业务过程构建后,平台会形成由待填充事实逻辑模型和维度逻辑模型构成总线矩阵。模型设计人员可以方便按照矩阵指引,完成维度表、事实表等逻辑模型设计。

    来自:帮助中心

    查看更多 →

  • 操作符函数

    根据字符串、数组、元组下标返回其对应元素。 一般性多值操作 op_add 计算多个值和,可以是字符串或者数字等。 op_max 计算多个字段或表达式表示数值最大值。 op_min 计算多个字段或表达式表示数值最小值。 op_if 根据判断条件返回不同表达式值。 函数格式 op_if(condition

    来自:帮助中心

    查看更多 →

  • 配置数据血缘

    文件迁移所产生血缘。 ETL Job 支持 DLI 、OBS、MySQL以及DWS之间ETL任务产生血缘。 手动配置血缘 在 DataArts Studio 数据开发作业中,您可以在数据开发作业节点中,自定义血缘关系输入表和输出表。注意,当手动配置血缘时,此节点自动血缘解析将不生效。

    来自:帮助中心

    查看更多 →

  • 配置数据血缘

    文件迁移所产生血缘。 ETL Job 支持DLI、OBS、MySQL以及DWS之间ETL任务产生血缘。 手动配置血缘 在DataArts Studio数据开发作业中,您可以在数据开发作业节点中,自定义血缘关系输入表和输出表。注意,当手动配置血缘时,此节点自动血缘解析将不生效。

    来自:帮助中心

    查看更多 →

  • BTEQ工具命令

    BTEQ工具命令 GaussDB (DWS)提供了一系列gsql元命令,可以等价替换常用BTEQ工具命令。常用BTEQ命令转换行为如下: .QUIT | .EXIT | .RETURN 元命令\q [value]支持退出gsql程序,且可以通过value值指定退出码。.QUIT、

    来自:帮助中心

    查看更多 →

  • 数据资产模型

    数据资产模型是解决方案信息架构共享,包含方案主题设计、逻辑模型设计、物理模型设计、ETL映射、业务指标设计等。如何发布数据资产模型参考归档发布资产。 查找数据资产模型 图1 查找数据资产模型 图2 数据资产模型详情 引用数据资产模型 支持将发布数据资产模型引用到指定方案下,基于引用模型二次编辑,快速完成信息架构设计。

    来自:帮助中心

    查看更多 →

  • 节点参考

    HetuEngine MRS Impala SQL MRS Flink Job MRS MapReduce CSS Shell RDS SQL ETL Job Python ModelArts Train Http Trigger OCR Create OBS Delete OBS OBS

    来自:帮助中心

    查看更多 →

  • Storm应用开发简介

    Storm是一个分布式、可靠、容错数据流处理系统。它会把工作任务委托给不同类型组件,每个组件负责处理一项简单特定任务。Storm目标是提供对大数据流实时处理,可以可靠地处理无限数据流。 Storm有很多适用场景:实时分析、在线机器学习、持续计算和分布式ETL等,易扩展、支

    来自:帮助中心

    查看更多 →

  • 数据质量管理

    支持用户通过自定义 SQL 校验、正则表达式校验等自定义方式进行规则扩展,实现如值域校验、精度校验等校验方式,形成规则模板以便重复使用。 图2 自定义质量规则 质量加权评分 支持用户自定义质量评分指标,为不同质量规则关联指标并分配计分权重,从而根据企业数据质量评估体系,有层次有重点地对数据质量进行评分。

    来自:帮助中心

    查看更多 →

  • Spark Core数据序列化

    Spark支持两种方式序列化 : Java原生序列化JavaSerializer Kryo序列化KryoSerializer 序列化对于Spark应用性能来说,具有很大影响。在特定数据格式情况下,KryoSerializer性能可以达到JavaSerializer10倍以上,

    来自:帮助中心

    查看更多 →

  • 数据序列化

    Spark支持两种方式序列化 : Java原生序列化JavaSerializer Kryo序列化KryoSerializer 序列化对于Spark应用性能来说,具有很大影响。在特定数据格式情况下,KryoSerializer性能可以达到JavaSerializer10倍以上,

    来自:帮助中心

    查看更多 →

  • Loader开源增强特性

    支持从SFTP/FTP导入所有类型文件到HDFS,开源只支持导入文本文件 支持从HDFS/OBS导出所有类型文件到SFTP,开源只支持导出文本文件和sequence格式文件 导入(导出)文件时,支持对文件进行转换编码格式,支持编码格式为jdk支持所有格式 导入(导出)文件时,支持保持原来文件目录结构和文件名不变

    来自:帮助中心

    查看更多 →

  • Storm应用开发简介

    Storm是一个分布式、可靠、容错数据流处理系统。它会把工作任务委托给不同类型组件,每个组件负责处理一项简单特定任务。Storm目标是提供对大数据流实时处理,可以可靠地处理无限数据流。 Storm有很多适用场景:实时分析、在线机器学习、持续计算和分布式ETL等,易扩展、支

    来自:帮助中心

    查看更多 →

  • Spark Core数据序列化

    Spark支持两种方式序列化 : Java原生序列化JavaSerializer Kryo序列化KryoSerializer 序列化对于Spark应用性能来说,具有很大影响。在特定数据格式情况下,KryoSerializer性能可以达到JavaSerializer10倍以上,

    来自:帮助中心

    查看更多 →

  • Storm应用开发简介

    本文档提供给需要Storm二次开发用户使用。本指南主要适用于具备Java开发经验开发人员。 简介 Storm是一个分布式、可靠、容错数据流处理系统。它会把工作任务委托给不同类型组件,每个组件负责处理一项简单特定任务。Storm目标是提供对大数据流实时处理,可以可靠地处理无限数据流。

    来自:帮助中心

    查看更多 →

  • HDFS文件系统目录简介

    HDFS是Hadoop分布式文件系统(Hadoop Distributed File System),实现大规模数据可靠分布式读写。HDFS针对使用场景是数据读写具有“一次写,多次读”特征,而数据“写”操作是顺序写,也就是在文件创建时写入或者在现有文件之后添加操作。HDFS

    来自:帮助中心

    查看更多 →

  • Hive应用开发简介

    Hive应用开发简介 Hive简介 Hive是一个开源,建立在Hadoop上 数据仓库 框架,提供类似SQLHiveQL语言操作结构化数据,其基本原理是将HiveQL语言自动转换成MapReduce任务或Spark任务,从而完成对Hadoop集群中存储海量数据进行查询和分析。 Hive主要特点如下:

    来自:帮助中心

    查看更多 →

  • 产品价值

    产品价值 数据服务主要解决AI开发过程中数据准备效率、数据安全、数据质量等关键问题,降低AI数据准备时间,同时提升AI数据质量,达到高效AI开发目标。 数据丰富,训练集获取耗时节省90% 电信场景覆盖广:专业实验室生成高价值样本,覆盖电信域90%以上典型场景,已有1000多个AI训练集,30000多个网络特征。

    来自:帮助中心

    查看更多 →

  • 数据清洗

    数据清洗 数据清洗是指数据开发前对数据预处理、对原始数据进行ETL(Extract Transform Load)处理过程。通过数据清洗过程检查原始数据类型,确保数据完整,去除脏数据,并根据具体业务规则将原始数据转换为业务需要格式,为进一步数据分析做准备。 FileBeat采集端数据清洗

    来自:帮助中心

    查看更多 →

  • 产出信息(邀测)

    作业算子id,表关联作业算子列表接口响应体task_id。 表2 Query参数 参数 是否必选 参数类型 描述 workspace_id 否 String 空间ID,表关联作业算子列表接口响应体workspace_id。 job_name 是 String 作业算子名称,表关联作业算子列表接口响应体job_name。

    来自:帮助中心

    查看更多 →

共105条
看了本文的人还看了