轻量算力节点资源开通（新版页面）

场景描述

本章节主要介绍如何在ModelArts控制台上购买轻量算力节点算力资源，及购买前的准备工作。

用户先完成资源配额提升、配置基础权限、设置ModelArts委托授权等准备工作。在购买资源时，用户创建实例并支付订单，支付完成后等待约20~60分钟，资源创建成功后即可配置弹性公网IP进行访问，开展相关AI开发工作。

约束限制

轻量算力节点超节点当前仅支持“包年/包月”计费模式。

轻量算力节点普通节点（ECS或BMS）的所有资源规格均支持“包年/包月”计费模式。

资源开通流程

图1 轻量算力节点资源开通流程图

表1 轻量算力节点资源开通流程
阶段	任务
准备工作	1、申请开通资源规格。
	2、资源配额提升。
	3、基础权限开通。
	4、配置ModelArts委托授权。
购买轻量算力节点资源	5、在ModelArts控制台上购买轻量算力节点资源。

步骤1：申请开通资源规格

请联系客户经理确认轻量算力节点资源方案、申请要开通资源的规格，如果无客户经理可提交工单。

步骤2：提升资源配额

由于轻量算力节点所需资源可能会超出云服务默认提供的资源（如ECS、EIP、SFS、内存大小、CPU核数），因此需要提升资源配额。

登录华为云管理控制台。
在顶部导航栏单击“资源 > 我的配额”，进入服务配额页面。
单击右上角“申请扩大配额”，填写申请材料后提交工单。

配额需大于需要开通的资源，且在购买开通前完成提升，否则会导致资源开通失败。

步骤3：开通基础权限

开通基础权限需要登录管理员账号，为子用户账号开通轻量算力节点功能所需的基础权限，包括ModelArts FullAccess、BMS FullAccess、ECS FullAccess、VPC FullAccess、VPC Administrator、VPCEndpoint Administrator，即允许子用户账号同时可以使用这些云服务。

登录统一身份认证服务管理控制台。
单击目录左侧“用户组”，然后在页面右上角单击“创建用户组”。
填写“用户组名称”并单击“确定”。
在用户组页面，在目标用户组名称的操作列单击“用户组管理”，将需要配置权限的用户加入用户组中。
图2 用户组管理
单击用户组名称，进入用户组详情页。
在授权记录页签下，单击“授权”。
图3 “配置权限”
在搜索栏输入“ModelArts FullAccess”，并勾选“ModelArts FullAccess”。
图4 ModelArts FullAccess

以相同的方式，依次添加：BMS FullAccess、ECS FullAccess、VPC FullAccess、VPC Administrator、VPCEndpoint Administrator、CloudMatrixFullAccessPolicy（超节点）。（Server Administrator、DNS Administrator为依赖策略，会自动被勾选）。
单击“下一步”，授权范围方案选择“所有资源”。
单击“确定”，完成基础权限开通。

步骤4：在ModelArts上创建委托授权

ModelArts轻量算力节点在任务执行过程中需要访问用户的其他服务，典型的就是容器使用过程中需要到SWR服务拉取镜像。在这个过程中，就出现了ModelArts“代表”用户去访问其他云服务的情形。从安全角度出发，ModelArts代表用户访问任何云服务之前，均需要先获得用户的授权，而这个动作就是一个“委托”的过程。用户授权ModelArts代表自己访问特定的云服务，以完成其在ModelArts平台上执行的AI计算任务。

新建委托
 第一次使用ModelArts时需要创建委托授权，授权允许ModelArts代表用户去访问其他云服务。进入ModelArts控制台的“系统管理 > 权限管理”页面，单击“添加授权”，根据提示进行操作。
更新委托
 如果之前给ModelArts创过委托授权，此处可以更新授权。
1. 进入到ModelArts管理控制台，在左侧导航栏找到资源管理下的轻量算力节点页面，查看是否存在授权缺失的提示。
  - 新版控制台：在左侧导航栏中，选择“资源管理 > 轻量算力资源 > 轻量算力节点”。
  - 旧版控制台：在左侧导航栏中，选择“资源管理 > 轻量算力节点”。
    图5 轻量算力节点权限缺失提示
2. 如果存在授权缺失，根据提示，单击“此处”更新委托。根据提示选择“追加至已有授权”，单击“确定”，系统会提示权限更新成功。
  图6 追加授权

步骤5：购买轻量算力节点资源

购买轻量算力节点资源的过程即创建资源过程。

登录ModelArts管理控制台，在左侧导航栏找到资源管理下的轻量算力节点页面。
- 新版控制台：在左侧导航栏中，选择“资源管理 > 轻量算力资源 > 轻量算力节点”。
- 旧版控制台：在左侧导航栏中，选择“资源管理 > 轻量算力节点”。

在资源列表页面，单击右上角的“购买轻量算力节点”，进入“购买轻量算力节点”页面，在该页面填写相关参数信息。

购买界面存在新版和旧版2个版本，以下参数配置表中展示的参数顺序遵循的是新版购买页面，旧版购买页面的参数顺序和新版页面有差异，但具体的参数解释不变。

图7 购买轻量算力节点时的基础配置

表2 基础配置参数说明
参数名称	说明
节点类型	普通节点：单一物理主机或虚拟主机，提供基础的独立计算、存储和网络资源，包括裸金属服务器和弹性云服务器两种。超节点：融合架构节点，提供大规模计算资源池，支持灵活调配和高密度部署。超节点专门用于支持大规模的模型训练和推理任务。这些服务器通常配备有多个计算卡（如昇腾NPU），能够提供强大的计算能力，以满足高负载的算力需求。超节点资源即Snt9b23资源，仅支持西南-贵阳一、华北三、和华东二区域。
资源类型	当“节点类型”选择“普通节点”时，会出现此参数。可以根据需要选择“裸金属服务器”或“弹性云服务器”。裸金属服务器：是一款兼具弹性云服务器和物理机性能的计算类服务器，为您和您的企业提供专属的云上物理服务器。弹性云服务器：是一种可随时自助获取、可弹性伸缩的云服务器，可帮助您打造可靠、安全、灵活、高效的应用环境，确保服务持久稳定运行，提升运维效率。
计费模式	包年/包月是预付费模式，按订单的购买周期计费，适用于可预估资源使用周期的场景，价格比按需计费模式更优惠。轻量算力节点超节点仅支持“包年/包月”。轻量算力节点普通节点（ECS或BMS）的所有资源规格均支持“包年/包月”计费模式。
区域	不同区域的云服务产品之间内网互不相通；请就近选择靠近您业务的区域，可减少网络时延，提高访问速度。
可用区	可用区是同一服务区内，电力和网络互相独立的地理区域，一般是一个独立的物理机房，这样可以保证可用区的独立性。是否将资源放在同一可用区内，主要取决于您对容灾能力和网络时延的要求。如果您的应用需要较高的容灾能力，建议您将资源部署在同一区域的不同可用区内。如果您的应用要求实例之间的网络延迟较低，则建议您将资源创建在同一可用区内。当“节点类型”选择“超节点”或“普通节点 > 弹性云服务器”时，支持“随机可用区”，即显示当前各个区域中可用的节点资源。“普通节点 >裸金属服务器”不支持随机可用区。边缘小站资源发放的详细内容请参见轻量算力节点管理CloudPond的NPU资源。

表3 规格配置参数说明
参数名称	说明
CPU架构	资源类型的CPU架构，支持X86和ARM。 X86：如果使用GPU资源选择X86。 ARM：如果使用NPU资源则选择ARM。请先选择CPU架构，再根据具体需求选择实例规格。具体规格有区域差异，以最终显示为准。已售罄的资源会呈灰色显示，不支持购买。选择Snt9b23超节点规格时，由于超平面网络仅在单实例（VXpod）中可用，若想保障全部算力均可使用超平面，请选择节点规模较大的单实例（VXpod）。说明：如果界面无可选规格，请联系华为云技术支持申请开通。

表4 操作系统配置参数说明
参数名称	说明
镜像	此处配置的是轻量算力节点服务器的操作系统镜像。公共镜像公共镜像对所有用户可见。所有用户可以根据镜像ID进行只读使用。 ModelArts服务提供了多个公共的操作系统镜像，支持多种操作系统，并且在镜像中内置了AI场景相关驱动和软件，为用户提供了一个完整的AI开发环境，方便用户直接进行开发和训练，而无需额外配置。当前支持的公共操作系统镜像请参见轻量算力节点操作系统镜配套关系。系统正常运行需要配套相关硬件驱动，系统内核的变化可能会导致部分硬件驱动不兼容，影响系统正常运行，建议不要直接登录到操作系统自行升级系统内核或者硬件驱动。如果需要切换或重置操作系统镜像，请参见切换或重置轻量算力节点服务器操作系统。私有镜像仅镜像创建者可以使用，其他用户无法访问。选择通过私有镜像配置轻量算力节点操作系统，可以节省您重复配置服务器的时间。私有镜像需要在镜像服务IMS中提前创建，详情请参见创建私有镜像。

表5 存储配置参数说明
参数名称	说明
存储配置	存储配置参数作用于每一个普通节点，实际存储配置=单个节点的存储配置*购买的节点数量。
节点系统盘类型	系统盘和规格有关，选择支持挂载的实例规格才会显示此参数。节点系统盘用于存储服务器的操作系统，创建轻量算力节点时自带系统盘，且系统盘自动初始化。此处支持选择“节点系统盘类型”，并设置“大小”。系统盘大小取值范围在100GiB和1024GiB之间。也可以在轻量算力节点创建完成后再进行系统盘的扩容，当前仅支持超节点的系统盘扩容，不支持普通节点的系统盘扩缩容，具体操作请参见轻量算力节点超节点系统盘扩容。系统盘会自动挂载到每个计算节点上。
节点数据盘类型（可选）	单击“增加数据盘”，可以在创建轻量算力节点时挂载云上EVS数据盘。暂不支持挂载本地磁盘。此处支持选择“节点数据盘类型”，并设置“大小”和数据盘“数量”。数据盘大小取值范围在100GiB和32768GiB之间。 BMS或ECS类型的机器，数据盘个数上限是59块。超节点类型的机器，数据盘个数上限是8块。也可以在轻量算力节点创建完成后再进行数据盘的扩容。数据盘会自动挂载到每个计算节点上。数据盘挂载和卸载说明如下，具体挂载和卸载操作请参见使用云硬盘EVS作为存储。超节点类型的机器：数据盘挂载和卸载只能在轻量算力节点详情页完成，也可以通过轻量算力节点的磁盘挂载或卸载API完成。 BMS或ECS类型的机器：数据盘挂载和卸载均支持在轻量算力节点详情页完成，也可以在BMS或ECS控制台完成。

表6 网络配置参数说明
参数名称	说明
虚拟私有云	虚拟私有云（Virtual Private Cloud，简称VPC）用以确保轻量算力节点资源的安全性、隔离性和网络的灵活性。在下拉框中选择轻量算力节点对应的VPC，建议选择VPC时与其它云服务保持一致，便于网络互通。下拉框中无可用VPC时，单击右侧的“新建虚拟私有云”，会在当前页面右侧弹出“创建虚拟私有云”窗口，根据提示创建VPC。创建虚拟私有云需要登录管理员账号，IP地址段请根据现网情况合理规划。
子网	选择该VPC下的一个子网。下拉框中无子网可选时，单击右侧的“新建子网”，会在当前页面右侧弹出“新建子网”窗口，根据提示创建一个子网。轻量算力节点不支持手动分配子网IP，仅支持自动分配。
安全组	安全组是一个逻辑上的分组，为同一个VPC内具有相同安全保护需求并相互信任的轻量算力节点提供访问策略。下拉框中无安全组可用时，单击右侧的“新建安全组”，会在当前页面右侧弹出“使用预设规则创建安全组”窗口，根据提示创建一个安全组。请确保所选安全组已放通22端口（Linux SSH登录），3389端口（Windows远程登录）和 ICMP 协议（Ping），其他与业务无关端口或IP请关闭。建议将安全组入方向规则中高危端口的源地址设置为已知IP地址、安全组或IP地址组，避免因网络入侵出现业务中断、数据泄露或数据勒索等严重后果。
IPv6网络	如果当前网络配置的子网、规格、镜像都支持IPv6，则会显示该参数，打开后可启用IPv6功能。请确保您的子网已开启IPv6功能，如果未开启请参考为虚拟私有云创建新的子网。不同规格、镜像对IPv6支持的情况不同，如果不支持则不会显示IPv6网络参数，请以控制台实际显示为准。
RoCE网络	当“节点类型”是“普通节点”时，会出现此参数。当使用A/H系列GPU资源、Snt9或Snt9b资源进行分布式训练时，为了将硬件上的RoCE网卡使用起来，需要配置RoCE网络。该参数与所选规格有关，如果未选中规格或规格不支持RoCE网络，则不显示。如果规格支持RoCE网络但未创建过，单击“新建RoCE网络”即可完成创建。如果规格支持RoCE网络且已创建过RoCE网络，直接选择已有RoCE网络即可（不支持重复创建）。
超节点网络	当“节点类型”是“超节点”时，会出现此参数，单击右侧的“添加超节点网络”可以创建超节点网络。超节点网络是支持分布式场景的必备条件。

表7 节点管理参数说明
参数名称	说明
服务器名称	轻量算力节点的机器名称。只能包含数字、大小写字母、下划线和中划线，长度不能超过64位且不能为空。注意：订单中的服务器名称会一直保持此处下单购买时设置的名称。后期修改服务器名称后，不会在订单中同步更新。
登录凭证	“密钥对”方式创建的轻量算力节点安全性更高，建议选择“密钥对”方式。如果您习惯使用“密码”方式，请增强密码的复杂度，保证密码符合要求，防止被恶意攻击。密钥对指使用密钥对作为登录轻量算力节点的鉴权方式。您可以选择使用已有的密钥对，或者单击“新建密钥对”创建新的密钥。如果选择使用已有的密钥，请确保您已在本地获取该文件，否则，将影响您正常登录轻量算力节点。密码指使用设置初始密码方式作为轻量算力节点的鉴权方式，此时，您可以通过用户名密码方式登录轻量算力节点。 Linux操作系统时为root用户的初始密码，Windows操作系统时为Administrator用户的初始密码。密码复杂度需满足以下要求：长度为8至26个字符。至少包含大写字母、小写字母、数字及特殊符号(!@$%^-_=+[{}]:,./?)中的3种。不能与用户名或倒序的用户名相同。不能包含root或administrator及其逆序。

表8 高级配置参数说明
参数名称	说明
CES主机监控委托	勾选后表示开启，将一键配置CES主机监控委托。委托CES对轻量算力节点的CPU、内存、网络、磁盘、进程等指标进行监控，监控指标间隔是1分钟。详细监控指标信息请参见使用CES监控轻量算力节点NPU资源章节。
节点任务中枢	部分公共镜像预置了NodeTaskHub插件，选择相应镜像时，此处会显示此参数。勾选后表示开启，系统会自动安装NodeTaskHub插件，用于支持任务中心下发软件升级、压测、故障诊断等任务。详细介绍请参见安装轻量算力节点AI插件。勾选后表示开启，系统将调用 AOM 授权委托并在轻量算力节点中安装 NodeTaskHub 插件，用于支持在任务中心下发 Ascend 软件升级、压测、故障诊断等任务。调用AOM授权委托目的是允许ModelArts轻量算力节点调用AOM接口以获取监控告警对接能力。
实例自定义数据注入	当您有如下需求时，可以考虑使用实例自定义数据注入功能来配置轻量算力节点：通过脚本简化轻量算力节点配置通过脚本初始化系统已有脚本，在创建轻量算力节点时一并上传至服务器其他可以使用脚本完成的操作当前支持“以文本形式”和“以文件形式”，使用方法可参考BMS实例自定义数据注入或ECS实例自定义数据注入。

表9 购买配置参数说明
参数名称	说明
购买时长	选择资源购买时长，并根据需要勾选“自动续费”。
购买数量	支持同时购买多台机器，输入值必须在1到10之间。如果有多台机器资源，会生成对应多笔订单，需逐一支付每笔订单，不可合并支付。如果您购买48台超节点，请结合您的业务场景，自行预留部分机器作为备机，确保机器出现故障时，及时切换到备机。

在当前购买页面的左下角查看配置费用，并单击“立即购买”，完成实例的创建，随后进入付款界面，支付对应资源的订单。
配置费用中会显示当前资源的费用构成。如果有优惠，可以通过“优惠详情”查看详细内容，配置费用显示的是最终优惠后的费用。实际扣费请在账单中查看。

如果有多台机器资源，会生成对应多笔订单，需逐一支付每笔订单，不可合并支付。
支付完成后，由于轻量算力节点资源创建约20~60分钟，请耐心等待。如果资源创建失败，请参考资源购买失败处理。
图8 资源创建成功