快速部署

本章节主要帮助用户快速部署“基于PyTorch NPU快速部署开源大模型”解决方案。

表1 参数说明（制作镜像）
参数名称	类型	是否可选	参数解释	默认值
vpc_name	string	必填	虚拟私有云名称，该模板使用新建VPC，不允许重名。取值范围：1-54个字符，支持中文、英文字母、数字、_（下划线）、-（中划线）、.（点）。	model-inference-based-on-npus-demo
secgroup_name	string	必填	安全组名称，该模板新建安全组，请参考安全组规则修改进行配置。取值范围：1-64个字符，支持字母、数字、中文、下划线（_）、中划线（-）、英文句号（.）。	model-inference-based-on-npus-demo
ecs_name	string	必填	云服务器实例名称，不支持重名。取值范围：1-60个字符，支持中文、英文字母、数字、_（下划线）、-（中划线）、.（点）。	model-inference-based-on-npus-demo
swr_name	string	必填	swr组织名称，不支持重名。取值范围：2-64个字符，小写字母开头，支持小写字母、数字、-（中划线），小写字母或数字结尾。	model-inference-based-on-npus-demo
entry_instructions	string	必填	swr临时登录指令，注意开头和结尾需要加英文双引号（"）,示例："docker login -u cn-southwest-2@xxx -p xxx swr.cn-southwest-2.myhuaweicloud.com"，请参考获取临时登录指令。	空
ecs_password	string	必填	云服务器密码，长度为8-26位，密码至少必须包含大写字母、小写字母、数字和特殊字符（!@$%^-_=+[{}]:,./?）中的三种，仅支持小写字母、数字、中划线（-）、英文句号（.）。修改密码，请参考重置云服务器密码登录ECS控制台修改密码。管理员账户默认root。	空

表2 参数说明（部署模型）
参数名称	类型	是否可选	参数解释	默认值
functiongraph_name	string	必填	函数工作流 Functiongraph函数名称，不支持重名。取值范围：长度为2-57个字符，支持字母、数字、_（下划线）和-（中划线），以字母开头，以字母或数字结尾。	model-inference-based-on-npus-demo
domain_username	string	必填	IAM用户所属的华为云账号名称。取值范围：6-30 个字符，以字母开头，支持字母、数字、下划线（_）、中划线（-）。	空
username	string	必填	IAM用户名。取值范围：1-64个字符，支持字母、数字、下划线（_）、中划线（-）、点（.）不能以数字或空格开头，如果您的华为云账号已升级为华为账号，将不支持获取账号Token，建议您为自己创建一个IAM用户，授予该用户必要的权限，获取IAM用户Token。	空
password	string	必填	IAM用户密码。取值范围：8-32个字符，支持字母、数字、特殊字符，不能包含空格，为避免获取Token失败，请务必保证密码输入正确。	空
model_obs_path	string	必填	模型所在的OBS路径。路经格式：https://桶名.obs.cn-southwest-2.myhuaweicloud.com/模型文件路径/。	空
environment_swr_path	string	必填	模型运行的SWR环境路径，请参考获取镜像地址，示例：swr.cn-southwest-2.myhuaweicloud.com/xxx/pytorch_2_1_ascend:909。	空
service_name	string	必填	在线服务名称。支持1-64位字符，可包含字母、中文、数字、中划线、下划线。	model-inference-based-on-npus-demo
service_running_time	string	必填	服务运行的时间。单位：小时。取值范围：1-24的正整数。例如：1小时后停止服务，此参数填1。	1
specification	string	必填	在线服务资源规格。当前版本仅支持公共资源池的规格，可选modelarts.vm.cpu.2u/modelarts.vm.gpu.pnt004(需申请)/modelarts.vm.ai1.snt3(需申请)/custom(仅支持在部署到专属资源池时使用)，需申请的规格请提交工单，由ModelArts运维工程师添加权限。	modelarts.bm.arm.snt9b1
instance_count	string	必填	在线服务模型部署的实例数。取值范围：1-128的正整数，当前限制最大实例数为128，如需使用更多的实例数，需提交工单申请。	1
ascend_rt_visible_devices	string	必填	在线服务NPU卡的数量，单卡设为0，4卡设为0,1,2,3。	0
model_path	string	必填	在线服务模型路径，格式为/home/mind/model/权重文件夹名称，例如：/home/mind/model/Qwen-7B-Chat。	/home/mind/model/Qwen-7B-Chat

登录华为云解决方案实践，选择“基于PyTorch NPU快速部署开源大模型”，单击“一键部署（制作镜像）”，跳转至解决方案创建资源栈界面。

图1 解决方案实践
在选择模板界面中，单击“下一步”。

图2 选择模板
在配置参数界面中，请按下面的描述完成对应参数填写。参考表1 参数说明（制作镜像）完成自定义参数填写，单击“下一步”。

图3 配置参数
在资源设置界面中，在权限委托下拉框中选择“rf_admin_trust”委托（可不选），单击“下一步”。

图4 资源栈设置
在配置确认界面中，单击“创建执行计划”。

图5 配置确认
在弹出的创建执行计划框中，自定义填写执行计划名称，单击“确定”。

图6 创建执行计划
单击“部署”，并且在弹出的执行计划确认框中单击“执行”。

图7 执行计划

图8 执行计划确认
待“事件”中出现“Apply required resource success”，表示该解决方案已经部署完成。

图9 部署完成
参考制作镜像，获取镜像地址。
访问华为云解决方案实践，选择“基于PyTorch NPU快速部署开源大模型”，单击“一键部署（部署模型）”，跳转至解决方案创建资源栈界面，其余部署参考以上步骤2-8，（注：步骤3参考表2 参数说明（部署模型）完成自定义参数填写）。