更新时间:2024-07-22 GMT+08:00
分享

新建数据表

您可以通过可视化模式、DDL模式或SQL脚本方式新建数据表。

  • (推荐)可视化模式:您可以直接在DataArts Studio数据开发模块通过No Code方式,新建数据表。
  • (推荐)DDL模式:您可以在DataArts Studio数据开发模块,通过选择DDL方式,使用SQL语句新建数据表。
  • SQL脚本方式:您也可以在DataArts Studio数据开发模块或对应数据湖产品的SQL编辑器上,开发并执行用于创建数据表的SQL脚本,从而创建数据表。

本章节以可视化模式和DDL模式为例,介绍如何在数据开发模块新建数据表。

前提条件

新建数据表(可视化模式)

  1. 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。
  2. DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。
  3. 在数据开发主界面的左侧导航栏,选择数据开发 > 脚本开发
  4. 在脚本开发导航栏,选择,展开数据连接层级至“tables”,右键单击“新建数据表”或者单击新建数据表。
  5. 在弹出的对话框中,显示“配置基本属性”页面,参见表1配置相关参数。
    表1 基本属性

    数据连接类型

    参数说明

    DLI

    请见表5“基本属性”部分

    DWS

    请见表6“基本属性”部分

    MRS Hive

    请见表7“基本属性”部分

    MRS Spark

    请见表8“基本属性”部分

  6. 单击“下一步”,在“配置表结构”页面配置如表2所示的参数。
    表2 表结构

    数据连接类型

    参数说明

    DLI

    请见表5“表结构”部分

    DWS

    请见表6“表结构”部分

    MRS Hive

    请见表7“表结构”部分

    MRS Spark

    请见表8“表结构”部分

  7. 单击“保存”,新建数据表。

新建数据表(DDL模式)

  1. 参考访问DataArts Studio实例控制台,登录DataArts Studio管理控制台。
  2. DataArts Studio控制台首页,选择对应工作空间的“数据开发”模块,进入数据开发页面。
  3. 在数据开发主界面的左侧导航栏,选择数据开发 > 脚本开发
  4. 在脚本开发导航栏,选择,展开数据连接层级至“tables”,右键单击“新建数据表”或者单击新建数据表。
  5. 单击“DDL模式建表”,如表3所示的参数,系统自动默认,并在下方的编辑器中输入SQL语句。例如:
    CREATE TABLE userinfo ( id INT, name STRING);

    不同数据源的SQL语法有所差异,开发SQL语句前请预先了解各数据源的语法参考文档。

    表3 数据表参数

    参数

    说明

    数据连接类型

    数据表所属的数据连接类型。

    数据连接

    数据表所属的数据连接。

    数据库

    数据表所属的数据库。

  6. 单击“保存”,新建数据表。

相关操作

  • 查看表详情:在脚本开发导航栏,选择,展开下方的数据连接至数据表层级,右键单击表名称,选择“查看表详情”,可查看如表4所示的数据表信息。
    表4 表详情页面

    页签名称

    说明

    表信息

    显示数据表的基本信息和存储信息。

    字段信息

    显示数据表的字段信息。

    数据预览

    预览数据表的10条记录。

    DDL

    显示DLI/DWS/MRS Hive数据表的DDL。

  • 删除表:在脚本开发导航栏,选择,展开下方的数据连接至数据表层级,右键单击表名称,选择“删除”后,在弹出的页面中单击“确定”完成删除。

    删除操作不可撤销,请谨慎操作。

参数说明

表5 DLI数据表

参数

是否必选

说明

基本属性

表名

数据表的名称。只能包含英文小写字母、数字、“_”,不能为纯数字,不能以“_”开头,且长度为1~63个字符。

别名

数据表的别名,只能包含中文字符、英文字母、数字、“_”,不能为纯数字,不能以“_”开头,且长度为1~63个字符。

数据连接类型

数据表所属的数据连接类型。系统默认。

数据连接

数据表所属的数据连接。系统默认。

数据库

数据表所属的数据库。系统默认。

数据位置

选择数据存储的位置:

  • OBS
  • DLI

数据格式

选择数据的格式。“数据位置”“OBS”时,配置该参数。

  • parquet:支持读取不压缩、snappy压缩、gzip压缩的parquet数据。
  • csv:支持读取不压缩、gzip压缩的csv数据。
  • orc:支持读取不压缩、snappy压缩的orc数据。
  • json:支持读取不压缩、gzip压缩的json数据。

路径

选择数据存储的OBS路径。“数据位置”“OBS”时,配置该参数。

如果OBS路径不存在或者OBS桶不存在,系统支持可以自动创建OBS目录。

说明:

如果OBS桶创建超过上限,系统会自动提示“创建obs目录失败,错误原因:[Create OBS Bucket failed:TooManyBuckets:You have attempted to create more buckets than allowed]”。

表描述

数据表的描述信息。

表结构

列类型

选择列类型。包含分区列和普通列。系统默认普通列。

列名

填写列名,列名不能重复。

类型

选择数据类型,具体说明请参见《数据湖探索SQL语法参考》数据类型

列描述

填写列的描述信息。

操作

单击,增加列。

单击,删除列。

表6 DWS数据表

参数

是否必选

说明

基本属性

表名

数据表的名称。只能包含英文字母、数字、“_”,不能为纯数字,不能以“_”开头,且长度为1~63个字符。

别名

数据表的别名,只能包含中文字符、英文字母、数字、“_”,不能为纯数字,不能以“_”开头,且长度为1~63个字符。

数据连接类型

数据表所属的数据连接类型。系统默认。

数据连接

数据表所属的数据连接。系统默认。

数据库

数据表所属的数据库。系统默认。

模式

选择数据库的模式。

表描述

数据表的描述信息。

高级选项

提供以下高级选项:

  • 选择数据表的存储方式
    • 行存模式
    • 列存模式
  • 选择数据表的压缩级别
    • 行存模式:压缩级别的有效值为YES/NO。
    • 列存模式:压缩级别的有效值为YES/NO/LOW/MIDDLE/HIGH,还可以配置列存模式同一压缩级别下不同的压缩水平0-3(数值越大,表示同一压缩级别下压缩比越大)。

表结构

列名

填写列名,列名不能重复。

数据分类

选择数据类型的类别:

  • 数值类型
  • 货币类型
  • 布尔类型
  • 二进制类型
  • 字符类型
  • 时间类型
  • 几何类型
  • 网络地址类型
  • 位串类型
  • 文本搜索类型
  • UUID类型
  • JSON类型
  • 对象标识符类型

类型

选择数据类型,具体说明请参见《数据仓库服务开发指南》数据类型

列描述

填写列的描述信息。

是否建ES索引

单击复选框时,表示需要建立ES索引。建立ES索引时,请同时在“CloudSearch集群名”中选择建立好的CSS集群。如何创建CSS集群,请参见《云搜索服务用户指南》创建集群

ES索引数据类型

选择ES索引的数据类型:

  • text
  • keyword
  • date
  • long
  • integer
  • short
  • byte
  • double
  • boolean
  • binary

操作

单击,增加列。

单击,删除列。

表7 MRS Hive数据表

参数

是否必选

说明

基本属性

表名

数据表的名称。只能包含英文小写字母、数字、“_”,不能为纯数字,不能以“_”开头,且长度为1~63个字符。

别名

数据表的别名,只能包含中文字符、英文字母、数字、“_”,不能为纯数字,不能以“_”开头,且长度为1~63个字符。

数据连接类型

数据表所属的数据连接类型。系统默认。

数据连接

选择数据表所属的数据连接。系统默认。

数据库

选择数据表所属的数据库。系统默认。

表描述

数据表的描述信息。

表结构

列名

填写列名,列名不能重复。

数据分类

选择数据类型的类别:

  • 原始类型
  • ARRAY
  • MAP
  • STRUCT
  • UNION

类型

选择数据类型,具体说明请参见LanguageManual DDL

列描述

填写列的描述信息。

操作

单击,增加列。

单击,删除列。

表8 MRS Spark数据表

参数

是否必选

说明

基本属性

表名

数据表的名称。只能包含英文小写字母、数字、“_”,不能为纯数字,不能以“_”开头,且长度为1~63个字符。

别名

数据表的别名,只能包含中文字符、英文字母、数字、“_”,不能为纯数字,不能以“_”开头,且长度为1~63个字符。

数据连接类型

数据表所属的数据连接类型。系统默认。

数据连接

选择数据表所属的数据连接。系统默认。

数据库

选择数据表所属的数据库。系统默认。

表描述

数据表的描述信息。

表结构

列名

填写列名,列名不能重复。

数据分类

选择数据类型的类别:

  • 原始类型
  • ARRAY
  • MAP
  • STRUCT
  • UNION

类型

选择数据类型,具体说明请参见LanguageManual DDL

列描述

填写列的描述信息。

操作

单击,增加列。

单击,删除列。

相关文档