更新时间:2025-06-23 GMT+08:00
分享

接入Hive数据源

DataArts Insight支持连接Hive数据源。本文为您介绍如何在DataArts Insight上接入Hive数据源。

DataArts Insight连接Hive有以下方式:

  • 公网连接方式:如果是非当前账号下的云服务资源,建议使用公网连接方式,且数据源需绑定弹性公网IP。
  • VPC网络连通:只能连接当前账号下的云上服务资源,推荐使用VPC网络连通。
  • 终端节点服务:通过终端节点服务名称连接数据源,适合连接非当前账号和无法获取VPCEP权限数据源场景以及连接ECS自搭建数据源场景。

操作前准备

用户连接数据源时,检查是否添加了公网IP/内网(VPCEP)安全组,检查步骤如下:
  1. 登录管理服务控制台。
  2. 在服务列表中单击“大数据 > MapReduce服务”进入MRS控制台。
  3. 在控制台左上角选择区域。
  4. 单击云服务控制台左侧导航栏“MRS集群 ”,进入集群列表。
  5. 选择需要连接的集群,单击集群名称,进入集群的概览页面。
  6. 单击“网络信息 > 弹性公网IP > 添加安全组规则 > 管理安全组规则 > 入方向规则”,进入安全组入方向规则界面,查看是否添加公网IP/内网(VPCEP)。
    • 如果添加,执行下一步操作。
    • 如果未添加,则添加安全组,操作步骤如下:
      1. 单击“添加规则”,弹出“添加入方向规则”页面,填写协议端口、源IP地址(公网IP/内网IP)。在需要添加较多规则时,可单击“快速添加规则”添加。
      2. 确认参数无误,单击“确认”,执行下一步操作。
  7. 在集群概览页查看“默认生效子网”,单击左上角服务列表中“网络 > 虚拟私有云”,进入网络控制台,查看该子网是关联网络ACL,查看关联网络ACL是否添加公网IP/内网(VPCEP)。
    • 如果没有关联网络ACL,返回DataArts Insight数据源页面连接数据源。
    • 如果有关联网络ACL,单击关联的网络ACL,跳转到网络ACL详情页,单击“入方向规则”页签,查看是否添加公网IP/内网(VPCEP)。
      • 如果添加,返回DataArts Insight数据源页面连接数据源。
      • 如果未添加,则在关联的ACL入方向添加放通规则,操作步骤如下:
        1. 单击“添加规则”,弹出“添加入方向规则”页面,填写协议端口、源IP地址(公网IP/内网IP)。
        2. 确认参数无误,单击“确认”,返回DataArts Insight界面连接数据源。

如果完成以上操作后数据源连接测试仍然失败,可能是用户所连接数据源的SASL_SSL未开启。

公网方式接入Hive数据源

  1. 登录智能数据洞察控制台
  2. 单击“数据源> 新建数据源”,进入新建数据源页面,源库类型选择数据Hive,接入网络类型选择公网。
  3. 填写其他参数,参数说明如表1所示。
    图1 接入Hive数据源参数

    表1 参数说明

    参数名称

    是否必填

    说明

    源库类型

    接入的数据源类型,本示例为Hive。

    接入网络类型

    公网方式接入。

    名称

    数据源配置列表的显示名称。

    域名

    数据源的IP地址。

    用户名

    登录数据库的用户名。

    密码

    登录数据库的密码。

    端口

    对应数据库的登录端口。

    数据库

    登录的数据库名称。

    SASL_SSL

    -

    实现数据源和DataArts Insight之间的可信身份认证与安全数据传输,此开关默认开启。

    说明:

    当用户需要连接MRS安全集群时,需要开启SASL_SSL,当用户连接MRS非安全集群时,关闭SASL_SSL。

    用户名

    登录数据库的用户名。

    认证方式

    支持密码认证和证书认证。

    密码

    选择密码认证方式必填参数。

    登录数据库的密码。

    安全证书

    选择证书认证方式必填参数。

    安全证书的下载上传步骤:

    • 登录MRS集群的Manager页面(概览 > 运维管理 > 集群管理页面)。
    • 单击页面上方的“系统”,进入系统管理界面。
    • 单击“权限 > 用户”,进入本地用户界面,选择用户单击操作列的“更多 > 下载证书凭据”。
    • 证书下载完成后,返回新建数据源界面,单击“上传证书”,证书上传。
      说明:

      上传证书大小不能超过5M,以.tar结尾的文件。

    principal

    选择证书认证方式必填参数。

    获取路径:

    • 登录MRS集群的Manager页面(概览 > 运维管理 > 集群管理页面)。
    • 单击页面上方的“主页”,进入主页界面。
    • 单击主页右上角的“更多 > 下载客户端”,弹出下载集群客户端窗口。
    • 参数选择:选择客户端类型“仅配置文件”、选择平台类型“x86_64”,单击“确定”,客户端配置文件下载成功。
    • 解压客户端配置文件,打开“Hive > config > hive-site.xml”文件,搜索“principal”,获取principal值。
      图2 获取principal值
    • 返回新建数据源界面,将获取的principal值输入在“principal”输入框内。
  4. 单击“连接测试”,进行数据源连通性测试。
  5. 测试成功后单击“确定”,完成数据源接入。

VPC网络连通方式接入Hive数据源

  1. 登录智能数据洞察控制台
  2. 单击管理控制台左上角的,选择区域,单击右上角的企业项目,选择企业项目。
  3. 在控制台上方单击“项目”后,单击项目名称,进入项目页面。
  4. 单击“数据源 > 新建数据源”,进入新建数据源页面,源库类型选择数据Hive,接入网络类型选择MapReduce服务Hive。
  5. 填写其他参数,参数说明如表2所示。

    MRS实例选择仅决定连接VPC与子网,与服务器列表无对应关系。

    图3 接入Hive云数据源参数

    表2 参数说明

    参数名称

    是否必填

    说明

    源库类型

    接入的数据源类型,本示例为Hive。

    接入网络类型

    MapReduce服务Hive方式接入。

    所属地域

    Hive服务主机所在的局点。

    名称

    数据源配置列表的显示名称,用户自定义。

    描述

    对连接数据源的描述。

    实例

    Hive服务对应的角色实例。

    服务器列表

    Hive服务器列表。

    数据库

    登录的数据库名称。

    SASL_SSL

    -

    实现数据源和DataArts Insight之间的可信身份认证与安全数据传输,此开关默认开启。

    说明:

    当用户需要连接MRS安全集群时,需要开启SASL_SSL,当用户连接MRS非安全集群时,关闭SASL_SSL。

    用户名

    登录数据库的用户名。

    认证方式

    支持密码认证和证书认证。

    密码

    登录数据库的密码。

  6. 单击“连接测试”,进行数据源连通性测试。
  7. 测试成功后单击“确定”,完成数据源接入。

终端节点服务连通方式接入Hive数据源

终端节点服务连接支持通过终端节点服务名称连接数据源,增加数据源接入的灵活性,可解决跨账号接入、ECS自搭建数据源接入。此外,同一主账号及其子账号共用一条连接通道,简化了连接管理。当前接入方式无需权限委托,进一步降低了操作的复杂性。

  • 前提条件
    • 在终端节点服务的基本信息界面开启“连接审批”,请参见查看终端节点服务
    • 在连接的终端节点服务中添加白名单记录(将本服务的domain ID加入白名单中),请参见管理终端节点服务的白名单。domain ID在新建数据源页面获取,如所示。
      图4 获取domain ID

  • 操作步骤
    1. 登录智能数据洞察控制台
    2. 单击管理控制台左上角的,选择区域,单击右上角的企业项目,选择企业项目。
    3. 在控制台上方单击“项目”后,单击项目名称,进入项目页面。
    4. 单击“开始创建 > 新建数据源”,进入新建数据源页面,源库类型选择数据Hive,接入网络类型选择终端节点服务。
    5. 填写其他参数,参数说明如表3所示。
      图5 终端节点服务连接方式

      表3 参数说明

      参数名称

      是否必填

      说明

      源库类型

      接入的数据源类型,本示例为Hive。

      接入网络类型

      终端节点服务方式接入。

      所属地域

      Hive服务主机所在的局点。

      名称

      数据源配置列表的显示名称,用户自定义。

      描述

      对连接数据源的描述。

      终端节点服务名称

      需要连接的终端节点服务名称。连接终端节点服务的前提条件:

      验证

      -

      填入终端节点服务名称后单击“验证”,终端节点ID处出现绿色的对号,表示验证成功,如果终端终节点ID处出现红色感叹号,表示首次连接,需要“终端节点服务 > 连接管理”界面进行授权,授权请参见管理终端节点服务的连接审批。审批通过后再次单击“验证”,验证通过。

      说明:
      • 不同数据源首次连接终端节点服务都需要审批。
      • 只有管理员账号或者拥有管理员权限的账号才可以审批,如果当前账号没有审批权限,请联系管理员账号进行审批。

      终端节点ID

      填入终端节点服务名称后,单击“验证”,终端节点ID自动填充。

      端口

      对应数据库的登录端口。

      数据库

      登录的数据库名称。

      用户名

      登录数据库的用户名。

      认证方式

      支持密码认证和证书认证。

      密码

      登录数据库的密码。

    6. 单击“连接测试”,进行数据源连通性测试。
    7. 测试成功后单击“确定”,完成数据源接入。

后续操作

创建数据源后,您可以上传文件、共享数据源,根据业务场景的需求修改和删除数据源,您还可以创建数据集并分析数据。了解详情请参见后续操作

相关文档