更新时间:2024-01-04 GMT+08:00
分享

创建专属云MRS集群

本章节为您介绍如何在您的专属资源上创建一个MRS集群。

  • 如果您希望MRS服务运行在隔离的专属区域,请您先申请专属计算集群,再创建专属云MRS集群。

    了解和申请专属计算集群,请参见《专属计算集群用户指南》。

  • 如果您希望MRS服务拥有独享的存储设备,请您在开通专属计算集群后申请专属企业存储,再创建专属云MRS集群。

    了解和申请专属企业存储,请参见《专属企业存储用户指南》。

快速购买专属云MRS集群

  1. 进入购买MRS集群页面
  2. 在购买集群页面,选择“快速购买”页签。
  3. 参考下列参数说明配置集群基本信息,参数详细信息请参考购买自定义集群

    • 区域:默认即可。
    • 计费模式:根据需要选择“按需计费”“包年/包月”模式。
    • 购买时长:购买集群的时长,最短时长为1个月,最长时长为一年。
    • 集群名称:可以设置为系统默认名称,但为了区分和记忆,建议带上项目拼音缩写或者日期等。
    • 集群版本:默认选择最新版本即可(不同版本集群提供的组件有所不同,请根据需要选择集群版本)。
    • 组件选择:根据需要选择“Hadoop分析集群”、“HBase查询集群”或“Kafka流式集群”。
    • 磁盘类型:默认即可。MRS 3.x版本暂时没有该参数。
    • 集群节点:请根据自身需要选择集群节点规格数量等。
    • 用户名:默认为“root/admin”,root用于远程登录ECS机器,admin用于登录集群管理页面。
    • 密码:设置root用户和admin用户密码。
    • 确认密码:再次输入设置的root用户和admin用户密码。

  4. 单击“立即购买”。

    如果您对价格有疑问,可以单击页面左下角“了解计费详情”,根据计费详情来了解产品价格。

  5. 单击“返回集群列表”,可以查看到集群创建的状态。

    集群创建需要时间,所创集群的初始状态为“启动中”,创建成功后状态更新为“运行中”,请您耐心等待。

自定义购买专属云MRS集群

  1. 登录MRS管理控制台。
  2. 单击“购买集群”,进入“购买集群”页面。
  3. 在购买集群页面,选择“自定义购买”页签。
  4. 参考自定义购买集群软件配置配置集群信息后,单击“下一步”。
  5. 参考自定义购买集群硬件配置配置集群信息后,单击“下一步”。
  6. 参考自定义购买集群高级配置(可选)配置集群信息后,单击“立即购买”

    当集群开启Kerberos认证时,需要确认是否需要开启Kerberos认证,若确认开启请单击“继续”,若无需开启Kerberos认证请单击“返回”关闭Kerberos认证后再创建集群。

    如果您对价格有疑问,可以单击页面左下角“了解计费详情”,根据计费详情来了解产品价格。

  7. 单击“返回集群列表”,可以查看到集群创建的状态。

    集群创建的状态过程请参见表1中的“状态”参数说明。

    集群创建需要时间,所创集群的初始状态为“启动中”,创建成功后状态更新为“运行中”,请您耐心等待。

自定义购买集群软件配置

表1 MRS集群软件配置

参数

参数说明

区域

选择区域

不同区域的云服务产品之间内网互不相通。请就近选择靠近您业务的区域,可减少网络时延,提高访问速度。

集群名称

集群名称不允许重复。

只能由字母、数字、中划线和下划线组成,并且长度为1~64个字符。

默认名称为mrs_xxxx,xxxx为字母和数字的四位随机组合数,系统自动组合。

集群版本

目前支持MRS 1.9.2、MRS 3.1.0版本。默认值为当前最新版本。

集群类型

提供几种集群类型:
  • 分析集群:用来做离线数据分析,提供的是Hadoop体系的组件。
  • 流式集群:用来做流处理任务,提供的是流式处理组件。
  • 混合集群:既可以用来做离线数据分析,也可以用来做流处理任务,提供的是Hadoop体系的组件和流式处理组件。建议同时需要做离线数据分析和流处理任务时使用混合集群。
  • 自定义:用户可按照业务需求调整集群服务的部署方式,具体请参见购买自定义拓扑集群。(目前仅MRS 3.x版本支持)
说明:

MRS流式集群不支持“作业管理”“文件管理”功能

组件选择

MRS配套的组件如下,MRS不同版本集群支持的组件版本请参见MRS组件版本一览表

分析集群组件
  • Presto:开源、分布式SQL查询引擎
  • Hadoop:分布式系统基础架构
  • Spark:内存分布式系统框架
  • Hive:建立在Hadoop上的数据仓库框架
  • Opentsdb:可扩展的分布式时间序列数据库,可以存储和服务于大量时间序列数据,而不会丢失粒度。
  • HBase:分布式列数据库
  • Tez:提供有向无环图的分布式计算框架
  • Hue:提供Hadoop UI能力,让用户通过浏览器分析处理Hadoop集群数据
  • Loader:基于开源sqoop 1.99.7开发,专为Apache Hadoop和结构化数据库(如关系型数据库)设计的高效传输大量数据的工具。

    Hadoop为必选组件,且Spark与Hive组件需要配套使用。请根据业务选择搭配组件。

  • Flink:分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。
  • Alluxio:一个基于内存的分布式存储系统。
  • Ranger:一个基于Hadoop平台监控和管理数据安全的框架。(Ranger组件当前不支持开启Kerberos认证。)
  • Impala:一种处理大量数据的SQL查询引擎。
  • Kudu:一种列存储管理器。
流式集群组件
  • Kafka:提供分布式消息订阅的系统。
  • KafkaManager:Kafka集群监控管理工具。
  • Storm:提供分布式实时计算的系统。
  • Flume:提供分布式、高可用、高可靠的海量日志采集、聚合和传输系统。

使用外部数据源存储元数据

是否使用外部数据源存储元数据。通过单击开启该功能,当该功能开启时,若集群异常或删除时将不影响元数据,适用于存储计算分离的场景。

支持Hive或Ranger组件的集群支持该功能。

组件名

当“使用外部数据源存储元数据”功能开启时,该参数有效。用于表示可以设置外部数据源的组件类型。

  • Hive
  • Ranger

数据连接类型

当“使用外部数据源存储元数据”功能开启时,该参数有效。用于表示外部数据源的类型。

  • Hive组件支持的数据连接类型:
    • RDS服务PostgreSQL数据库
    • RDS服务MySQL数据库
    • 本地数据库
  • Ranger组件支持的数据连接类型:
    • RDS服务MySQL数据库
    • 本地数据库

数据连接实例

当“数据连接类型”选择“RDS服务PostgreSQL数据库”或“RDS服务MySQL数据库”时,该参数有效。用于表示MRS集群与RDS服务数据库连接的名称,该实例必选先创建才能在此处引用。可单击“创建数据连接”进行创建,具体请参考配置数据连接

Kerberos认证

登录Manager管理页面时是否启用Kerberos认证。

  • “Kerberos认证”关闭时,普通用户可使用MRS集群的所有功能。建议单用户场景下使用。不启用Kerberos认证时的安全配置建议请参见集群(未启用Kerberos认证)安全配置建议
  • “Kerberos认证”开启时,普通用户无权限使用MRS集群的文件管理作业管理功能,并且无法查看Hadoop、Spark的作业记录以及集群资源使用情况。如果需要使用集群更多功能,需要找Manager的管理员分配权限。建议在多用户场景下使用。

通过单击来关闭或开启Kerberos认证。

当选择Presto组件时不支持开启Kerberos认证。

用户名

Manager管理员用户,目前默认为admin用户。

密码

配置Manager管理员用户的密码。

需要满足:

  • 密码长度应在8~26个字符之间
  • 必须包含如下4种字符的组合
    • 至少一个小写字母
    • 至少一个大写字母
    • 至少一个数字
    • 至少一个特殊字符:~`!?,.:;-_'"(){}[]/<>@#$%^&*+|\=
  • 不能和用户名或倒序的用户名相同

安全程度:颜色条红、橙、绿分别表示密码安全强度弱、中、强。

确认密码

再次输入Manager管理员用户的密码。

自定义购买集群硬件配置

表2 MRS集群计费模式配置

参数

参数说明

计费模式

当前仅支持“包年/包月”模式。

购买时长

包年/包月模式下该参数有效,表示购买集群的时长。最短时长为1个月,最长时长为1年。

如需开通自动续费功能,请勾选“自动续费”,开通后按月购买的集群 自动续费周期为一个月,按年购买的集群自动续费周期为一年。

表3 MRS集群硬件配置

参数

参数说明

可用区

选择集群工作区域下关联的可用区

可用区是使用独立电源和网络资源的物理区域。通过内部网络互联,再以物理方式进行隔离,提高了应用程序的可用性。建议您在不同的可用区下创建集群。

虚拟私有云

VPC即虚拟私有云,是通过逻辑方式进行网络隔离,提供安全、隔离的网络环境。

选择需要创建集群的VPC,单击“查看虚拟私有云”进入VPC服务查看已创建的VPC名称和ID。如果没有VPC,需要创建一个新的VPC。

子网

通过子网提供与其他网络隔离的、可以独享的网络资源,以提高网络安全。

选择需要创建集群的子网,可进入VPC服务控制台查看VPC下已创建的子网名称和ID,若VPC下未创建子网,请在VPC服务控制台单击“创建子网”进行创建。

安全组

安全组是一组对弹性云服务器的访问规则的集合,为同一个VPC内具有相同安全保护需求并相互信任的弹性云服务器提供访问策略。

用户创建集群时,可自动创建安全组,也可选择下拉框中已有的安全组。

说明:

选择用户自己创建的安全组时,请确保入方向规则中有一条全部协议,全部端口,源地址为可信任的IP访问范围的规则,源地址请勿使用0.0.0.0/0,否则会有安全风险。若用户不清楚可信任的IP访问范围,请选择自动创建。

弹性公网IP

通过将弹性公网IP与MRS集群绑定,实现使用弹性公网IP访问Manager的目的。

用户创建集群时,可选择下拉框中已有的弹性公网IP进行绑定。若下拉框中没有可选的弹性公网IP,可以单击“管理弹性公网IP”进入弹性公网IP服务进行购买。

说明:

弹性公网IP必须和集群在同一区域。

企业项目

选择集群所属的企业项目,如需使用企业项目,请先通过“企业管理 > 企业项目管理”服务创建。

企业项目所在的企业管理控制台以面向企业资源管理为出发点,帮助企业以公司、部门、项目等分级管理方式实现企业云上的人员、资源、权限、财务的管理。

表4 集群节点信息

参数

参数说明

CPU架构

MRS提供的CPU架构类型。MRS 3.x版本无该参数。

  • x86计算:x86 CPU架构采用复杂指令集(CISC),CISC指令集的每个小指令可以执行一些较低阶的硬件操作,指令数目多而且复杂,每条指令的长度并不相同。由于指令执行较为复杂所以每条指令花费的时间较长。
  • 鲲鹏计算:鲲鹏 CPU架构采用精简指令集(RISC),RISC是一种执行较少类型计算机指令的微处理器,它能够以更快的速度执行操作,使计算机的结构更加简单合理地提高运行速度,相对于X86 CPU架构具有更加均衡的性能功耗比。鲲鹏的优势是高密度低功耗,可以提供更高的性价比。

磁盘类型

根据磁盘使用的存储资源是否独享,磁盘划分为“云硬盘”、“专属分布式存储”。

  • 云硬盘:提供规格丰富、安全可靠、可弹性扩展的硬盘资源,满足不同性能要求的业务场景。

    如果未申请独享的存储池,请选择“云硬盘”,创建的磁盘使用公共存储资源。

  • 专属分布式存储:为用户提供独享的存储资源,通过数据冗余和缓存加速等多项技术,提供高可用性和持久性,以及稳定的低时延性能。

    如果您在专属分布式存储服务页面申请了存储池,可以选择“专属分布式存储”,在已申请的存储池中创建磁盘。

节点类型

MRS提供节点类型:

  • Master:指集群Master节点,负责管理集群,协调将集群可执行文件分配到Core节点。此外,还会跟踪每个作业的执行状态,监控DataNode的运行状况。
  • Core:指集群Core节点,处理数据并在HDFS中存储过程数据。分析集群将创建分析Core节点,流式集群将创建流式Core节点,混合集群分别创建分析Core和流式Core节点。
  • Task:指集群Task节点,主要用于计算,不存放持久数据。主要安装Yarn、Storm组件。Task节点为可选节点,数目可以是零。分析集群将创建分析Task节点,流式集群将创建流式Task节点,混合集群分别创建分析Task和流式Task节点。
    当集群数据量变化不大而集群业务处理能力需求变化比较大,大的业务处理能力只是临时需要,此时选择添加Task节点。
    • 临时业务量增大,如年底报表处理。
    • 需要在短时间内处理完原来需要处理很久的任务,如一些紧急分析任务。

计费模式

MRS集群中节点的计费模式。

  • Master和Core节点的计费模式与集群所选计费模式保持一致。
  • Task节点的计费模式固定为“按需计费”,表示即使创建包周期集群,Task节点依然按照按需计费模式进行计费。

实例规格

选择主节点和核心节点的实例规格。MRS当前支持主机规格的配型由CPU+内存+Disk共同决定。支持的实例规格详细说明请参见MRS所使用的弹性云服务器规格。单击,配置集群节点的实例规格、系统盘和数据盘参数。

说明:
  • 节点的实例规格配置越高,数据处理分析能力越强,集群所需费用也越高。
  • 当Core节点规格选择为HDD磁盘时,MRS无需为数据磁盘付费,但ECS需要为此付费。
  • 当Core节点规格选择非HDD磁盘时,Master节点和Core节点的磁盘类型取决于数据磁盘。
  • 当节点的实例规格选项后标示“已售罄”时,将无法购买此规格的节点,请选择其他规格节点进行购买。
  • Master节点中的4核8GB规格不在SLA售后范围内,仅适用于测试环境,不建议用于生产环境。

系统盘

节点系统盘的存储类型和存储空间。

存储类型:
  • SAS:高IO
  • SSD:超高IO
  • GPSSD:通用型SSD

数据盘

节点数据磁盘存储空间。为增大数据存储容量,创建集群时可同时添加磁盘,有如下应用场景:

  • 数据存储和计算分离,数据存储在OBS中,集群存储成本低,存储量不受限制,并且集群可以随时删除,但计算性能取决于OBS访问性能,相对HDFS有所下降,建议在数据计算不频繁场景下使用。
  • 数据存储和计算不分离,数据存储在HDFS中,集群成本较高,计算性能高,但存储量受磁盘空间限制,删除集群前需将数据导出保存,建议在数据计算频繁场景下使用。

目前支持的存储类型:

  • SAS:高IO
  • SSD:超高IO
  • GPSSD:通用型SSD
说明:

创建的节点个数越多,对管理节点(即master节点)的硬盘容量要求越高。为了保证集群能够健康地运行,当创建的节点个数达到300时,建议将master的硬盘容量配置成600GB以上;当创建的节点个数达到500时,建议将master的硬盘容量配置成1TB以上。

实例数量

配置各节点组内的节点个数。

  • Master节点组:Master实例数量最少3个,最多不超过9个。
  • Core节点至少存在一个,Core节点和Task节点的数量之和不能超过10000个。

    可以单击添加节点组,单击修改节点的实例规格,单击删除已添加的节点组。

说明:

过小的节点容量会导致您的集群运行缓慢,而过大的节点容量会产生不必要的成本,请根据您要处理的数据对集群节点数量进行调整。

LVM

仅当创建流式Core节点时,该参数在流式Core节点有效。单击该参数以开启或关闭磁盘LVM管理。

启用逻辑卷管理(LVM)时,会将节点中所有磁盘以逻辑卷的方式挂载,能够更加合理的规划磁盘,避免磁盘不均匀的问题,提升系统的稳定性。

表5 登录方式

参数

参数说明

登录方式

  • 密码

    使用密码方式登录ECS节点。

    密码设置约束如下:

    1. 字符串类型,可输入的字符串长度为8~26。
    2. 至少包含三种字符组合,如大写字母,小写字母,数字,特殊字符(`~!@#$%^&*()-_=+\|[{}];:'",<.>/?)和空格。
    3. 不能与用户名或倒序用户名相同。
  • 密钥对

    使用密钥方式登录集群ECS节点。从下拉框中选择密钥对,如果已获取私钥文件,请勾选“我确认已获取该密钥对中的私钥文件SSHkey-xxx,否则无法登录弹性云服务器”。如果没有创建密钥对,请单击“查看密钥对”创建或导入密钥,然后再获取私钥文件。

    密钥对即SSH密钥,包含SSH公钥和私钥。您可以新建一个SSH密钥,并下载私钥用于远程登录身份认证。为保证安全,私钥只能下载一次,请妥善保管。

    您可以通过以下两种方式中的任意一种使用SSH密钥。

    1. 创建SSH密钥:创建SSH密钥,同时会创建公钥和私钥,公钥保存在ECS系统中,私钥保存在用户本机。当登录弹性云服务器时,使用公钥和私钥进行鉴权。
    2. 导入SSH密钥:当用户已有公钥和私钥,可以选择将公钥导入系统。当登录弹性云服务器时,使用公钥和私钥进行鉴权。

自定义购买集群高级配置(可选)

表6 MRS集群高级配置

参数

参数说明

标签

具体请参考添加集群/节点标签

弹性伸缩

请在“硬件配置”页签指定Task节点的规格,然后参考配置弹性伸缩规则配置。

引导操作

具体请参考添加引导操作

委托

通过绑定委托,您可以将部分资源共享给ECS或BMS云服务来管理,例如通过配置ECS委托可自动获取AK/SK访问OBS,具体请参见配置存算分离集群(委托方式)

MRS_ECS_DEFAULT_AGENCY委托拥有对象存储服务的OBS OperateAccess权限和在集群所在区域拥有CES FullAccess(对开启细粒度策略的用户)、CES Administrator和KMS Administrator权限。

指标共享

用于采集大数据组件的监控指标,当用户使用集群过程中出现问题时,供华为云支持人员定位问题。

OBS权限控制

开启细粒度权限控制的用户可以通过该功能实现不同的MRS用户对OBS文件系统下的不同目录有不同的权限。具体请参见配置MRS多用户访问OBS细粒度权限

数据盘加密

是否对集群挂载的数据盘中的数据进行加密,默认关闭。如需使用该功能,当前用户必须拥有“Security Administrator”和“KMS Administrator”权限。

加密数据盘使用的密钥由数据加密服务(DEW,Data Encryption Workshop)中的密钥管理(KMS,Key Management Service)功能提供,无需您自行构建和维护密钥管理基础设施,安全便捷。

通过单击“数据盘加密”开启或关闭数据盘加密功能,详情请参考云硬盘加密

密钥ID

“数据盘加密”功能开启时,显示该参数。用于显示已选择的密钥名称对应的密钥ID。

密钥名称

“数据盘加密”功能开启时,需要配置该参数。选择用来加密数据盘的密钥名称,默认选择密钥名称为“evs/default”的默认主密钥,在下拉框中可以选择其他用户主密钥。

使用用户主密钥加密云硬盘,若对用户主密钥执行禁用、计划删除等操作,将会导致云硬盘不可读写,甚至数据永远无法恢复,请谨慎操作。

单击“查看密钥列表”,进入密钥管理页面可以创建及管理密钥。

告警

开启告警功能可在集群运行异常或系统故障时,及时通知集群维护人员定位问题。

规则名称

用户自定义发送告警消息的规则名称,只能包含数字、英文字符、中划线和下划线。

主题名称

选择已创建的主题,也可以单击“创建主题”重新创建。新创建的主题请参考向主题添加订阅向该主题添加订阅者才能接收发布至主题的消息。

主题是发送消息和订阅通知的信道,为发布者和订阅者提供一个可以相互交流的通道。

分享:

    相关文档

    相关产品