接入Hive数据源
DataArts Insight支持连接Hive数据源。本文为您介绍如何在DataArts Insight上接入Hive数据源。
DataArts Insight连接Hive有以下方式:
- 公网连接方式:如果是非当前账号下的云服务资源,建议使用公网连接方式,且数据源需绑定弹性公网IP。
- VPC网络连通:只能连接当前账号下的云上服务资源,推荐使用VPC网络连通。
- 终端节点服务:通过终端节点服务名称连接数据源,适合连接非当前账号和无法获取VPCEP权限数据源场景以及连接ECS自搭建数据源场景。
操作前准备
- 登录管理服务控制台。
- 在服务列表中单击“大数据 > MapReduce服务”进入MRS控制台。
- 在控制台左上角选择区域。
- 单击云服务控制台左侧导航栏“MRS集群 ”,进入集群列表。
- 选择需要连接的集群,单击集群名称,进入集群的概览页面。
- 单击“网络信息 > 弹性公网IP > 添加安全组规则 > 管理安全组规则 > 入方向规则”,进入安全组入方向规则界面,查看是否添加公网IP/内网(VPCEP)。
- 如果添加,返回DataArts Insight数据源编辑页面连接数据源。
- 如果未添加,则添加安全组,操作步骤如下:。
- 单击“添加规则”,弹出“添加入方向规则”页面,填写协议端口、源IP地址(公网IP/内网IP)。在需要添加较多规则时,可单击“快速添加规则”添加。
- 确认参数无误,单击“确认”,返回DataArts Insight界面连接数据源。
如果未绑定弹性公网IP,单击“网络信息 > 弹性公网IP > 绑定 > 管理安全组规则 > 入方向规则”,进行安全组检查或添加。
如果添加安全组后,数据源连接测试失败,可能是用户所连接数据源的SASL_SSL未开启。
公网方式接入Hive数据源
- 登录智能数据洞察控制台。
- 单击“数据源> 新建数据源”,进入新建数据源页面,源库类型选择数据Hive,接入网络类型选择公网。
- 填写其他参数,参数说明如表1所示。
图1 接入Hive数据源参数
表1 参数说明 参数名称
是否必填
说明
源库类型
是
接入的数据源类型,本示例为Hive。更多数据源类型连接请参考表1。
接入网络类型
是
公网方式接入。
名称
是
数据源配置列表的显示名称。
域名
是
数据源的IP地址。
用户名
是
登录云数据库的用户名。
密码
是
登录数据库的密码。
端口
是
对应数据库的登录端口。
数据库
是
登录的数据库名称。
SASL_SSL
-
实现数据源和DataArts Insight之间的可信身份认证与安全数据传输,此开关默认开启。
说明:当用户需要连接MRS安全集群时,需要开启SASL_SSL,当用户连接MRS非安全集群时,关闭SASL_SSL。
用户名
是
连接集群时的用户名。
安全证书
是
安全证书的下载上传步骤:
- 登录MRS集群的Manager页面(概览 > 运维管理 > 集群管理页面)。
- 单击页面上方的“系统”,进入系统管理界面。
- 单击“权限 > 用户”,进入本地用户界面,选择用户单击操作列的“更多 > 下载证书凭据”。
- 证书下载完成后,返回新建数据源界面,单击“上传证书”,证书上传。
说明:
上传证书大小不能超过5M,以.tar结尾的文件。
principal
是
获取路径:
- 登录MRS集群的Manager页面(概览 > 运维管理 > 集群管理页面)。
- 单击页面上方的“主页”,进入主页界面。
- 单击主页右上角的“更多 > 下载客户端”,弹出下载集群客户端窗口。
- 参数选择:选择客户端类型“仅配置文件”、选择平台类型“x86_64”,单击“确定”,客户端配置文件下载成功。
- 解压客户端配置文件,打开“Hive > config > hive-site.xml”文件,搜索“principal”,获取principal值。
图2 获取principal值
- 返回新建数据源界面,将获取的principal值输入在“principal”输入框内。
- 单击“连接测试”,进行数据源连通性测试。
- 测试成功后单击“确定”,完成数据源接入。
VPC网络连通方式接入Hive数据源
- 登录智能数据洞察控制台。
- 单击管理控制台左上角的,选择区域,单击左下角的企业项目选择企业项目。
- 在控制台右侧“我的项目”单击项目名称,进入项目页面。
- 单击“数据源 > 新建数据源”,进入新建数据源页面,源库类型选择数据Hive,接入网络类型选择MapReduce服务Hive。
- 填写其他参数,参数说明如表2所示。
MRS实例选择仅决定连接VPC与子网,与服务器列表无对应关系。
图3 接入Hive云数据源参数
表2 参数说明 参数名称
是否必填
说明
源库类型
是
接入的数据源类型,本示例为Hive。更多数据源类型连接请参考表1。
接入网络类型
是
MapReduce服务Hive方式接入。
所属地域
是
Hive服务主机所在的局点。
名称
是
数据源配置列表的显示名称,用户自定义。
描述
否
对连接数据源的描述。
实例
是
Hive服务对应的角色实例。
服务器列表
是
Hive服务器列表。
数据库
是
登录的数据库名称。
用户名
是
登录云数据库的用户名。
密码
是
登录数据库的密码。
SASL_SSL
-
实现数据源和DataArts Insight之间的可信身份认证与安全数据传输,此开关默认开启。
说明:当用户需要连接MRS安全集群时,需要开启SASL_SSL,当用户连接MRS非安全集群时,关闭SASL_SSL。
用户名
是
连接集群时的用户名。
安全证书
是
安全证书的下载上传步骤:
- 登录MRS集群的Manager页面(概览 > 运维管理 > 集群管理页面)。
- 单击页面上方的“系统”,进入系统管理界面。
- 单击“权限 > 用户”,进入本地用户界面,选择用户单击操作列的“更多 > 下载证书凭据”。
- 证书下载完成后,返回新建数据源界面,单击“上传证书”,证书上传。
说明:
上传证书大小不能超过5M,以.tar结尾的文件。
principal
是
获取路径:
- 登录MRS集群的Manager页面(概览 > 运维管理 > 集群管理页面)。
- 单击页面上方的“主页”,进入主页界面。
- 单击主页右上角的“更多 > 下载客户端”,弹出下载集群客户端窗口。
- 参数选择:选择客户端类型“仅配置文件”、选择平台类型“x86_64”,单击“确定”,客户端配置文件下载成功。
- 解压客户端配置文件,打开“Hive > config > hive-site.xml”文件,搜索“principal”,获取principal值。
图4 获取principal值
- 返回新建数据源界面,将获取的principal值输入在“principal”输入框内。
- 单击“连接测试”,进行数据源连通性测试。
- 测试成功后单击“确定”,完成数据源接入。
终端节点服务连通方式接入Hive数据源
终端节点服务连接支持通过终端节点服务名称连接数据源,增加数据源接入的灵活性,可解决跨账号接入、ECS自搭建数据源接入。此外,同一主账号及其子账号共用一条连接通道,简化了连接管理。当前接入方式无需权限委托,进一步降低了操作的复杂性。
- 前提条件:
- 在终端节点服务的基本信息界面开启“连接审批”,请参见查看终端节点服务。
- 在连接的终端节点服务中添加白名单记录(将本服务的domain ID加入白名单中),请参见管理终端节点服务的白名单。domain ID在新建数据源页面获取,如图所示。
- 操作步骤
- 登录DataArts Insight管理控制台。
- 单击管理控制台左上角的,选择区域,单击左下角的企业项目选择企业项目。
- 在控制台右侧“我的项目”单击项目名称,进入项目页面。
- 单击“开始创建 > 新建数据源”,进入新建数据源页面,源库类型选择数据Hive,接入网络类型选择终端节点服务。
- 填写其他参数,参数说明如表3所示。
图6 终端节点服务连接方式
表3 参数说明 参数名称
是否必填
说明
源库类型
是
接入的数据源类型,本示例为Hive。更多数据源类型连接请参考表1。
接入网络类型
是
终端节点服务方式接入。
所属地域
是
Hive服务主机所在的局点。
名称
是
数据源配置列表的显示名称,用户自定义。
描述
否
对连接数据源的描述。
终端节点服务名称
是
需要连接的终端节点服务名称。连接终端节点服务的前提条件:
- 获取正确的终端节点服务名称,请参见查看终端节点服务。
- 需要在连接的终端节点服务中添加白名单记录(将本服务的domain ID加入白名单中),请参见管理终端节点服务的白名单。
验证
-
填入终端节点服务名称后单击“验证”,终端节点ID处出现绿色的对号,表示验证成功,如果终端终节点ID处出现红色感叹号,表示首次连接,需要“终端节点服务 > 连接管理”界面进行授权,授权请参见管理终端节点服务的连接审批。审批通过后再次单击“验证”,验证通过。
说明:- 不同数据源首次连接终端节点服务都需要审批。
- 只有管理员账号或者拥有管理员权限的账号才可以审批,如果当前账号没有审批权限,请联系管理员账号进行审批。
终端节点ID
是
填入终端节点服务名称后,单击“验证”,终端节点ID自动填充。
端口
是
对应数据库的登录端口。
数据库
是
登录的数据库名称。
用户名
是
登录云数据库的用户名。
密码
是
登录数据库的密码。
SASL_SSL
-
实现数据源和DataArts Insight之间的可信身份认证与安全数据传输,此开关默认开启。
说明:当用户需要连接MRS安全集群时,需要开启SASL_SSL,当用户连接MRS非安全集群时,关闭SASL_SSL。
用户名
是
连接集群时的用户名。
安全证书
是
安全证书的下载上传步骤:
- 登录MRS集群的Manager页面(概览 > 运维管理 > 集群管理页面)。
- 单击页面上方的“系统”,进入系统管理界面。
- 单击“权限 > 用户”,进入本地用户界面,选择用户单击操作列的“更多 > 下载证书凭据”。
- 证书下载完成后,返回新建数据源界面,单击“上传证书”,证书上传。
说明:
上传证书大小不能超过5M,以.tar结尾的文件。
principal
是
获取路径:
- 登录MRS集群的Manager页面(概览 > 运维管理 > 集群管理页面)。
- 单击页面上方的“主页”,进入主页界面。
- 单击主页右上角的“更多 > 下载客户端”,弹出下载集群客户端窗口。
- 参数选择:选择客户端类型“仅配置文件”、选择平台类型“x86_64”,单击“确定”,客户端配置文件下载成功。
- 解压客户端配置文件,打开“Hive > config > hive-site.xml”文件,搜索“principal”,获取principal值。
图7 获取principal值
- 返回新建数据源界面,将获取的principal值输入在“principal”输入框内。
- 单击“连接测试”,进行数据源连通性测试。
- 测试成功后单击“确定”,完成数据源接入。