更新时间:2024-01-19 GMT+08:00

新建数据表

您可以通过可视化模式、DDL模式或SQL脚本方式新建数据表。

  • (推荐)可视化模式:您可以直接在DataArts Studio数据开发模块通过No Code方式,新建数据表。
  • (推荐)DDL模式:您可以在DataArts Studio数据开发模块,通过选择DDL方式,通过SQL语句新建数据表。
  • SQL脚本方式:您也可以在DataArts Studio数据开发模块或对应数据湖产品的SQL编辑器上,开发并执行用于创建数据表的SQL脚本,从而创建数据表。

本章节以可视化模式和DDL模式为例,介绍如何在数据开发模块新建数据表。

前提条件

  • 已在云服务中创建数据库。
  • 已在数据开发模块中创建与数据表类型匹配的数据连接,请参见新建数据连接

新建数据表(可视化模式)

  1. 登录DataArts Studio控制台。选择实例,单击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。
    图1 选择数据开发

  2. 在数据开发主界面的左侧导航栏,选择数据开发 > 脚本开发数据开发 > 作业开发,进入“右侧区域”页面。
  3. 在左侧菜单选择,双击“数据连接”,目录层级展开至“tables”,右键单击“新建数据表”或者单击新建数据表。
  4. 在弹出的对话框中,显示“配置基本属性”页面,参见表1配置相关参数。
    表1 基本属性

    数据连接类型

    参数说明

    DLI

    请见表5“基本属性”部分

    DWS

    请见表6“基本属性”部分

    MRS Hive

    请见表7“基本属性”部分

  5. 单击“下一步”,在“配置表结构”页面配置如表2所示的参数。
    表2 表结构

    数据连接类型

    参数说明

    DLI

    请见表5“表结构”部分

    DWS

    请见表6“表结构”部分

    MRS Hive

    请见表7“表结构”部分

  6. 单击“保存”,新建数据表。

新建数据表(DDL模式)

  1. 登录DataArts Studio控制台。选择实例,单击“进入控制台”,选择对应工作空间的“数据开发”模块,进入数据开发页面。
    图2 选择数据开发

  2. 在数据开发主界面的左侧导航栏,选择数据开发 > 脚本开发/数据开发 > 作业开发,进入“右侧区域”页面。
  3. 在左侧菜单选择,双击“数据连接”,目录层级展开至“tables”,右键单击“新建数据表”或者单击新建数据表。
  4. 单击“DDL模式建表”,如表3所示的参数,系统自动默认,并在下方的编辑器中输入SQL语句。
    表3 数据表参数

    参数

    说明

    数据连接类型

    数据表所属的数据连接类型。

    数据连接

    数据表所属的数据连接。

    数据库

    数据表所属的数据库。

  5. 单击“保存”,新建数据表。

查看表详情

  1. 在数据开发主界面的左侧导航栏,选择数据开发 > 脚本开发数据开发 > 作业开发,进入“右侧区域”页面。
  2. 在左侧菜单选择,双击“数据连接”,目录层级展开至数据表的名称,右键单击“查看表详情”
  3. 进入数据表详情页面,查看如表4所示的数据表信息。
    表4 表详情页面

    页签名称

    说明

    表信息

    显示数据表的基本信息和存储信息。

    字段信息

    显示数据表的字段信息。

    数据预览

    预览数据表的10条记录。

    DDL

    显示DLI/DWS/MRS Hive数据表的DDL。

查看数据表列详情

  1. 在数据开发主界面的左侧导航栏,选择数据开发 > 脚本开发数据开发 > 作业开发
  2. 在左侧菜单选择,双击展开数据连接目录层级至数据表名称,在数据表详情页面的字段信息页签查看对应的列信息。

删除数据表

  1. 在数据开发主界面的左侧导航栏,选择数据开发 > 脚本开发数据开发 > 作业开发,进入“右侧区域”页面。
  2. 在左侧菜单选择,双击“数据连接”,目录层级展开至数据表的名称,右键单击“删除”
  3. 在弹出的“删除数据表”页面,单击“确定”,删除数据表。

参数说明


  
表5 DLI数据表

参数

是否必选

说明

基本属性

表名

数据表的名称。只能包含英文小写字母、数字、“_”,不能为纯数字,不能以“_”开头,且长度为1~63个字符。

别名

数据表的别名,只能包含中文字符、英文字母、数字、“_”,不能为纯数字,不能以“_”开头,且长度为1~63个字符。

数据连接类型

数据表所属的数据连接类型。系统默认。

数据连接

数据表所属的数据连接。系统默认。

数据库

数据表所属的数据库。系统默认。

数据位置

选择数据存储的位置:

  • OBS
  • DLI

数据格式

选择数据的格式。“数据位置”“OBS”时,配置该参数。

  • parquet:支持读取不压缩、snappy压缩、gzip压缩的parquet数据。
  • csv:支持读取不压缩、gzip压缩的csv数据。
  • orc:支持读取不压缩、snappy压缩的orc数据。
  • json:支持读取不压缩、gzip压缩的json数据。

路径

选择数据存储的OBS路径。“数据位置”“OBS”时,配置该参数。

如果OBS路径不存在或者OBS桶不存在,系统支持可以自动创建obs目录。

说明:

如果OBS桶创建超过上限,系统会自动提示“创建obs目录失败,错误原因:[Create OBS Bucket failed:TooManyBuckets:You have attempted to create more buckets than allowed]”。

表描述

数据表的描述信息。

表结构

列类型

选择列类型。包含分区列和普通列。系统默认普通列。

列名

填写列名,列名不能重复。

类型

选择数据类型。

列描述

填写列的描述信息。

操作

单击,增加列。

单击,删除列。

表6 DWS数据表

参数

是否必选

说明

基本属性

表名

数据表的名称。只能包含英文字母、数字、“_”,不能为纯数字,不能以“_”开头,且长度为1~63个字符。

别名

数据表的别名,只能包含中文字符、英文字母、数字、“_”,不能为纯数字,不能以“_”开头,且长度为1~63个字符。

数据连接类型

数据表所属的数据连接类型。系统默认。

数据连接

数据表所属的数据连接。系统默认。

数据库

数据表所属的数据库。系统默认。

模式

选择数据库的模式。

表描述

数据表的描述信息。

高级选项

提供以下高级选项:

  • 选择数据表的存储方式
    • 行存模式
    • 列存模式
  • 选择数据表的压缩级别
    • 行存模式:压缩级别的有效值为YES/NO。
    • 列存模式:压缩级别的有效值为YES/NO/LOW/MIDDLE/HIGH,还可以配置列存模式同一压缩级别下不同的压缩水平0-3(数值越大,表示同一压缩级别下压缩比越大)。

表结构

列名

填写列名,列名不能重复。

数据分类

选择数据类型的类别:

  • 数值类型
  • 货币类型
  • 布尔类型
  • 二进制类型
  • 字符类型
  • 时间类型
  • 几何类型
  • 网络地址类型
  • 位串类型
  • 文本搜索类型
  • UUID类型
  • JSON类型
  • 对象标识符类型

类型

选择数据类型。

列描述

填写列的描述信息。

是否建ES索引

单击复选框时,表示需要建立ES索引。建立ES索引时,请同时在“CloudSearch集群名”中选择建立好的CSS集群。如何创建CSS集群,请参见《云搜索服务用户指南》

ES索引数据类型

选择ES索引的数据类型:

  • text
  • keyword
  • date
  • long
  • integer
  • short
  • byte
  • double
  • boolean
  • binary

操作

单击,增加列。

单击,删除列。

表7 MRS Hive数据表

参数

是否必选

说明

基本属性

表名

数据表的名称。只能包含英文小写字母、数字、“_”,不能为纯数字,不能以“_”开头,且长度为1~63个字符。

别名

数据表的别名,只能包含中文字符、英文字母、数字、“_”,不能为纯数字,不能以“_”开头,且长度为1~63个字符。

数据连接类型

数据表所属的数据连接类型。系统默认。

数据连接

选择数据表所属的数据连接。系统默认。

数据库

选择数据表所属的数据库。系统默认。

表描述

数据表的描述信息。

表结构

列名

填写列名,列名不能重复。

数据分类

选择数据类型的类别:

  • 原始类型
  • ARRAY
  • MAP
  • STRUCT
  • UNION

类型

选择数据类型,具体说明请参见LanguageManual DDL

列描述

填写列的描述信息。

操作

单击,增加列。

单击,删除列。