更新时间:2024-09-30 GMT+08:00

创建自定义集群

使用MRS的首要操作就是创建集群,本章节为您介绍如何在MRS管理控制台自定义创建一个新的MRS集群。

注册帐号后,如果需要对云上的资源进行精细管理,请使用IAM服务创建IAM用户及用户组,并授权,以使得IAM用户获得具体的操作权限,具体请参考创建用户并授权使用MRS

  1. 登录MRS管理控制台。
  2. 单击“创建集群”,进入“创建集群”页面。

    创建集群时需要注意配额提醒。当资源配额不足时,建议按照提示申请足够的资源,再创建集群。

  3. 创建集群页面,选择“自定义创建”页签。
  4. 参考软件配置配置集群信息后,单击“下一步”。
  5. 参考硬件配置配置集群信息后,单击“下一步”。
  6. 参考高级配置(可选)配置集群信息后,单击“立即申请”

    当集群开启Kerberos认证时,需要确认是否需要开启Kerberos认证,若确认开启请单击“继续”,若无需开启Kerberos认证请单击“返回”关闭Kerberos认证后再创建集群。

  7. 单击“返回集群列表”,可以查看到集群创建的状态。

    集群创建的状态过程请参见表1中的“状态”参数说明。

    集群创建需要时间,所创集群的初始状态为“启动中”,创建成功后状态更新为“运行中”,请您耐心等待。

    MRS系统界面支持同一时间并发创建10个集群,且最多支持管理100个集群。

软件配置

表1 MRS集群软件配置

参数

参数说明

区域

选择区域。

不同区域的云服务产品之间内网互不相通。请就近选择靠近您业务的区域,可减少网络时延,提高访问速度。

集群名称

集群名称不允许重复。

只能由字母、数字、中划线和下划线组成,并且长度为1~64个字符。

默认名称为mrs_xxxx,xxxx为字母和数字的四位随机组合数,系统自动组合。

集群版本

目前支持MRS 2.1.1、MRS 3.0.5、MRS 3.1.0、MRS 3.2.0-LTS.1版本。

集群类型

提供几种集群类型:
  • 分析集群:用来做离线数据分析,提供的是Hadoop体系的组件。
  • 流式集群:用来做流处理任务,提供的是流式处理组件。
  • 混合集群:既可以用来做离线数据分析,也可以用来做流处理任务,提供的是Hadoop体系的组件和流式处理组件。建议同时需要做离线数据分析和流处理任务时使用混合集群。
  • 自定义:用户可按照业务需求调整集群服务的部署方式,具体请参见创建自定义拓扑集群。(目前仅MRS 3.x版本支持)
说明:
  • MRS流式集群不支持“作业管理”“文件管理”功能
  • 如需在集群中安装全部组件,请选择“自定义”类型集群。

组件选择

MRS配套的组件如下:

分析集群组件
  • Presto:开源、分布式SQL查询引擎。
  • Hadoop:分布式系统基础架构。
  • Spark:内存分布式系统框架。(MRS 3.x版本不支持)
  • Spark2x:Spark2x是一个对大规模数据处理的快速和通用引擎,基于开源Spark2.x版本开发。(仅MRS 3.x版本支持)
  • Hive:建立在Hadoop上的数据仓库框架。
  • HBase:分布式列数据库。
  • Tez:提供有向无环图的分布式计算框架。
  • Hue:提供Hadoop UI能力,让用户通过浏览器分析处理Hadoop集群数据。
  • Loader:基于开源sqoop 1.99.7开发,专为Apache Hadoop和结构化数据库(如关系型数据库)设计的高效传输大量数据的工具。(MRS 3.x版本不支持)

    Hadoop为必选组件,且Spark与Hive组件需要配套使用。请根据业务选择搭配组件。

  • Flink:分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。
  • Oozie:Hadoop作业调度系统。(仅MRS 3.x版本支持)
  • Alluxio:一个基于内存的分布式存储系统。
  • Ranger:一个基于Hadoop平台监控和管理数据安全的框架。(Ranger组件当前不支持开启Kerberos认证。)
  • Impala:一种处理大量数据的SQL查询引擎。
  • ClickHouse:ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。CPU架构为鲲鹏计算的ClickHouse集群表引擎不支持使用HDFS和Kafka。
  • Kudu:一种列存储管理器。
流式集群组件
  • Kafka:提供分布式消息订阅的系统。
  • Flume:提供分布式、高可用、高可靠的海量日志采集、聚合和传输系统。

元数据

是否使用外部数据源存储元数据。

  • 本地元数据: 元数据存储在集群本地。
  • 数据连接:使用外部数据源元数据,若集群异常或删除时将不影响元数据,适用于存储计算分离的场景。

支持Hive或Ranger组件的集群支持该功能。

组件名

当“元数据”选择“数据连接”时该参数有效。用于表示可以设置外部数据源的组件类型。MRS 3.x版本暂不支持该功能。

  • Hive
  • Ranger

数据连接类型

当“元数据”选择“数据连接”时该参数有效。用于表示外部数据源的类型。

  • Hive组件支持的数据连接类型:
    • RDS服务PostgreSQL数据库
    • RDS服务MySQL数据库
    • 本地数据库
  • Ranger组件支持的数据连接类型:
    • RDS服务MySQL数据库
    • 本地数据库

数据连接实例

当“数据连接类型”选择“RDS服务PostgreSQL数据库”或“RDS服务MySQL数据库”时,该参数有效。用于表示MRS集群与RDS服务数据库连接的名称,该实例必选先创建才能在此处引用。可单击“创建数据连接”进行创建,具体请参考配置数据连接

硬件配置

表2 MRS集群硬件配置

参数

参数说明

可用区

选择集群工作区域下关联的可用区。

可用区是使用独立电源和网络资源的物理区域。通过内部网络互联,再以物理方式进行隔离,提高了应用程序的可用性。建议您在不同的可用区下创建集群。

虚拟私有云

VPC即虚拟私有云,是通过逻辑方式进行网络隔离,提供安全、隔离的网络环境。

选择需要创建集群的VPC,单击“查看虚拟私有云”进入VPC服务查看已创建的VPC名称和ID。如果没有VPC,需要创建一个新的VPC。

子网

通过子网提供与其他网络隔离的、可以独享的网络资源,以提高网络安全。

选择需要创建集群的子网,单击“查看子网”可查看所选子网的详细信息,若VPC下未创建子网,请在VPC服务控制台单击“创建子网”进行创建。

说明:

创建MRS 集群需要的IP数量和集群节点和组件个数相关,集群类型不影响IP数量。

MRS集群部署默认需要的IP数量为:集群节点数量+2(Manager+DB),如果部署集群时选择Hadoop、Hue、Sqoop或Loader、Presto组件,则每一个组件需要再加一个IP。若单独创建ClickHouse集群则需要的IP数量为:集群节点数量+1(Manager)。

安全组

安全组是一组对弹性云服务器的访问规则的集合,为同一个VPC内具有相同安全保护需求并相互信任的弹性云服务器提供访问策略。

用户创建集群时,可自动创建安全组,也可选择下拉框中已有的安全组。

说明:

选择用户自己创建的安全组时,请确保入方向规则中有一条全部协议,全部端口,源地址为可信任的IP访问范围的规则,源地址请勿使用0.0.0.0/0,否则会有安全风险。若用户不清楚可信任的IP访问范围,请选择自动创建。

弹性公网IP

通过将弹性公网IP与MRS集群绑定,实现使用弹性公网IP访问Manager的目的。

用户创建集群时,可选择下拉框中已有的弹性公网IP进行绑定。若下拉框中没有可选的弹性公网IP,可以单击“管理弹性公网IP”进入弹性公网IP服务进行创建

说明:

弹性公网IP必须和集群在同一区域。

企业项目

选择集群所属的企业项目,如需使用企业项目,请先通过“企业管理 > 企业项目管理”服务创建。

企业项目所在的企业管理控制台以面向企业资源管理为出发点,帮助企业以公司、部门、项目等分级管理方式实现企业云上的人员、资源、权限、财务的管理。

表3 集群节点信息

参数

参数说明

常用模板

当“集群类型”选择“自定义”时该参数有效,请参考自定义集群模板说明选择。

节点类型

MRS提供节点类型:

  • Master:指集群Master节点,负责管理集群,协调将集群可执行文件分配到Core节点。此外,还会跟踪每个作业的执行状态,监控DataNode的运行状况。
  • Core:指集群Core节点,处理数据并在HDFS中存储过程数据。分析集群将创建分析Core节点,流式集群将创建流式Core节点,混合集群分别创建分析Core和流式Core节点。
  • Task:指集群Task节点,主要用于计算,不存放持久数据。主要安装Yarn、Storm组件。Task节点为可选节点,数目可以是零。分析集群将创建分析Task节点,流式集群将创建流式Task节点,混合集群分别创建分析Task和流式Task节点。
    当集群数据量变化不大而集群业务处理能力需求变化比较大,大的业务处理能力只是临时需要,此时选择添加Task节点。
    • 临时业务量增大,如年底报表处理。
    • 需要在短时间内处理完原来需要处理很久的任务,如一些紧急分析任务。

实例规格

选择主节点和核心节点的实例规格。MRS当前支持主机规格的配型由CPU+内存+Disk共同决定。单击,配置集群节点的实例规格、系统盘和数据盘参数。

说明:
  • 节点的实例规格配置越高,数据处理分析能力越强。
  • 当Core节点规格选择非HDD磁盘时,Master节点和Core节点的磁盘类型取决于数据磁盘。
  • 当节点的实例规格选项后标示“已售罄”时,将无法创建此规格的节点,请选择其他规格节点进行。
  • MRS 3.x及之后版本集群Master节点规格不能小于64GB。

系统盘

节点系统盘的存储类型和存储空间。

存储类型
  • SATA:普通IO
  • SAS:高IO
  • SSD:超高IO
  • GPSSD:通用型SSD

数据盘

节点数据磁盘存储空间。为增大数据存储容量,创建集群时可同时添加磁盘,有如下应用场景:

  • 数据存储和计算分离,数据存储在OBS中,集群存储成本低,存储量不受限制,并且集群可以随时删除,但计算性能取决于OBS访问性能,相对HDFS有所下降,建议在数据计算不频繁场景下使用。
  • 数据存储和计算不分离,数据存储在HDFS中,集群成本较高,计算性能高,但存储量受磁盘空间限制,删除集群前需将数据导出保存,建议在数据计算频繁场景下使用。

目前的存储类型:

  • SATA:普通IO
  • SAS:高IO
  • SSD:超高IO
  • GPSSD:通用型SSD
说明:

创建的节点个数越多,对管理节点(即master节点)的硬盘容量要求越高。为了保证集群能够健康地运行,当创建的节点个数达到300时,建议将master的硬盘容量配置成600GB以上;当创建的节点个数达到500时,建议将master的硬盘容量配置成1TB以上。

实例数量

配置主节点和核心节点的个数。

Master:

  • 开启“集群高可用”时,Master实例数量固定为2个。
  • 关闭“集群高可用”时,Master实例数量固定为1个。

Core节点至少存在一个,Core节点和Task节点的数量之和不能超过500个。

Task:单击添加Task节点。单击修改Task节点额实例规格和磁盘配置。单击删除已添加的Task节点。

说明:
  • Core节点默认的最大值为500,如果用户需要的Core节点数大于500,请联系技术支持人员。
  • 过小的节点容量会导致您的集群运行缓慢,而过大的节点容量会产生不必要的成本,请根据您要处理的数据对集群节点数量进行调整。

集群高可用

是否开启集群高可用,默认开启。MRS 3.x版本暂时不支持该参数。

启用高可用特性时,所有组件的管理进程将会部署在两个master节点上,实现双机热备,防止单机故障,提高可靠性。当关闭高可用特性时,所有组件的管理进程只会部署在一个master节点上,当某个组件的进程出现异常时,该组件将无法提供服务。

  • “集群高可用”关闭时,Master节点实例数量固定为1个,Core节点实例数量默认为3个,最小可调整为1个。
  • “集群高可用”开启时,Master节点实例数量固定为2个,Core节点实例数量默认为3个,最小可调整为1个。

LVM

仅当创建流式Core节点时,该参数在流式Core节点有效。单击该参数以开启或关闭磁盘LVM管理。MRS 3.x及之后版本不支持该参数。

启用逻辑卷管理(LVM)时,会将节点中所有磁盘以逻辑卷的方式挂载,能够更加合理的规划磁盘,避免磁盘不均匀的问题,提升系统的稳定性。

拓扑调整

当常用模板中的部署方式不满足需求,请设置“拓扑调整”为“开启”,然后根据业务需要调整实例部署方式,具体说明请参见自定义集群拓扑调整说明。当集群类型为“自定义”时该参数有效。

高级配置(可选)

表4 MRS集群高级配置拓扑

参数

参数说明

标签

具体请参考添加集群标签

主机名前缀

用作集群中ECS机器主机名的前缀。

弹性伸缩

请在“硬件配置”页签指定Task节点的规格,然后参考创建集群时配置弹性伸缩规则配置。

引导操作

具体请参考添加引导操作。MRS 3.x版本暂时不支持该参数。

委托

通过绑定委托,ECS或BMS云服务将有权限来管理您的部分资源,请根据实际业务场景需求确认是否需要配置委托。例如通过配置ECS委托可自动获取AK/SK访问OBS,具体请参见配置存算分离集群(委托方式)

MRS_ECS_DEFAULT_AGENCY委托拥有对象存储服务的OBSOperateAccess权限和在集群所在区域拥有CESFullAccess(对开启细粒度策略的用户)、CES Administrator和KMS Administrator权限。

指标共享

用于采集大数据组件的监控指标,当用户使用集群过程中出现问题时,供支持人员定位问题。MRS 3.x版本暂时没有该参数。

OBS权限控制

开启细粒度权限控制的用户可以通过该功能实现不同的MRS用户对OBS文件系统下的不同目录有不同的权限。具体请参见配置MRS多用户访问OBS细粒度权限。MRS 3.x版本暂时没有该参数。

数据盘加密

是否对集群挂载的数据盘中的数据进行加密,默认关闭。如需使用该功能,当前用户必须拥有“Security Administrator”和“KMS Administrator”权限。MRS 3.x版本暂时没有该参数。

加密数据盘使用的密钥由数据加密服务(DEW,Data Encryption Workshop)中的密钥管理(KMS,Key Management Service)功能提供,无需您自行构建和维护密钥管理基础设施,安全便捷。

通过单击“数据盘加密”开启或关闭数据盘加密功能。

密钥ID

“数据盘加密”功能开启时,显示该参数。用于显示已选择的密钥名称对应的密钥ID。MRS 3.x版本暂时没有该参数。

密钥名称

“数据盘加密”功能开启时,需要配置该参数。选择用来加密数据盘的密钥名称,默认选择密钥名称为“evs/default”的默认主密钥,在下拉框中可以选择其他用户主密钥。MRS 3.x版本暂时没有该参数。

使用用户主密钥加密云硬盘,若对用户主密钥执行禁用、计划删除等操作,将会导致云硬盘不可读写,甚至数据永远无法恢复,请谨慎操作。

单击“查看密钥列表”,进入密钥管理页面可以创建及管理密钥。

告警

开启告警功能可在集群运行异常或系统故障时,及时通知集群维护人员定位问题。

规则名称

用户自定义发送告警消息的规则名称,只能包含数字、英文字符、中划线和下划线。

主题名称

选择已创建的主题,也可以单击“创建主题”重新创建。新创建的主题请参考向主题添加订阅向该主题添加订阅者才能接收发布至主题的消息。

主题是发送消息和订阅通知的信道,为发布者和订阅者提供一个可以相互交流的通道。

Kerberos认证

登录Manager管理页面时是否启用Kerberos认证。

  • “Kerberos认证”关闭时,普通用户可使用MRS集群的所有功能。建议单用户场景下使用。
  • “Kerberos认证”开启时,普通用户无权限使用MRS集群的文件管理作业管理功能,并且无法查看Hadoop、Spark的作业记录以及集群资源使用情况。如果需要使用集群更多功能,需要找Manager管理员分配权限。建议在多用户场景下使用。

当选择Ranger组件时不支持开启Kerberos认证。

用户名

Manager管理员用户,目前默认为admin用户。

密码

配置Manager管理员用户的密码。

需要满足:

  • 密码长度应在8~26个字符之间
  • 必须包含如下4种字符的组合
    • 至少一个小写字母
    • 至少一个大写字母
    • 至少一个数字
    • 至少一个特殊字符:! ?,.: -_{} [ ]@ $% ^ + = /
  • 不能和用户名或倒序的用户名相同

安全程度:颜色条红、橙、绿分别表示密码安全强度弱、中、强。

确认密码

再次输入Manager管理员用户的密码。

登录方式

  • 密码

    使用密码方式登录ECS节点。

    密码设置约束如下:

    1. 字符串类型,可输入的字符串长度为8~26。
    2. 至少包含四种字符组合,如大写字母,小写字母,数字,特殊字符(! ?,.: -_{} [ ]@ $% ^ + = /)。
    3. 不能与用户名或倒序用户名相同。
  • 密钥对

    使用密钥方式登录集群ECS节点。从下拉框中选择密钥对,如果已获取私钥文件,请勾选“我确认已获取该密钥对中的私钥文件SSHkey-xxx,否则无法登录弹性云服务器”。如果没有创建密钥对,请单击“查看密钥对”创建或导入密钥,然后再获取私钥文件。

    密钥对即SSH密钥,包含SSH公钥和私钥。您可以新建一个SSH密钥,并下载私钥用于远程登录身份认证。为保证安全,私钥只能下载一次,请妥善保管。

    您可以通过以下两种方式中的任意一种使用SSH密钥。

    1. 创建SSH密钥:创建SSH密钥,同时会创建公钥和私钥,公钥保存在ECS系统中,私钥保存在用户本机。当登录弹性云服务器时,使用公钥和私钥进行鉴权。
    2. 导入SSH密钥:当用户已有公钥和私钥,可以选择将公钥导入系统。当登录弹性云服务器时,使用公钥和私钥进行鉴权。

通信安全授权

MRS集群通过管理控制台为用户发放、管理和使用大数据组件,大数据组件部署在用户的VPC内部,MRS管理控制台需要直接访问部署在用户VPC内的大数据组件时需要开通相应的安全组规则,而开通相应的安全组规则需要获取用户授权,此授权过程称为通信安全授权。具体请参考授权安全通信

若不开启通信安全授权,MRS将无法创建集群。

集群创建失败

如果集群创建失败后,失败任务会自动转入“失败任务管理”页面。选择“集群列表 > 现有集群”,单击图1进入“失败任务管理”页面,在“任务状态”列中,将鼠标移动到上可以查看到失败原因。可以参见删除失败任务章节删除失败任务。

图1 失败任务管理

MRS集群创建失败错误码列表如表5所示。

表5 错误码

错误码

说明

MRS.101

用户请求配额不足,请联系客服提升配额。

MRS.102

用户Token为空或不合法,请稍后重试或联系客服。

MRS.103

用户请求不合法,请稍后重试或联系客服。

MRS.104

用户资源不足,请稍后重试或联系客服。

MRS.105

现子网IP不足,请稍后重试或联系客服。

MRS.201

因ECS服务导致失败,请稍后重试或联系客服。

MRS.202

因IAM服务导致失败,请稍后重试或联系客服。

MRS.203

因VPC服务导致失败,请稍后重试或联系客服。

MRS.400

MRS内部出错,请稍后重试或联系客服。