快速部署
本章节主要帮助用户快速部署“基于PyTorch NPU快速部署开源大模型”解决方案。
参数名称 |
类型 |
是否可选 |
参数解释 |
默认值 |
---|---|---|---|---|
vpc_name |
string |
必填 |
虚拟私有云名称,该模板使用新建VPC,不允许重名。取值范围:1-54个字符,支持中文、英文字母、数字、_(下划线)、-(中划线)、.(点)。 |
model-inference-based-on-npus-demo |
secgroup_name |
string |
必填 |
安全组名称,该模板新建安全组,请参考安全组规则修改进行配置。取值范围:1-64个字符,支持字母、数字、中文、下划线(_)、中划线(-)、英文句号(.)。 |
model-inference-based-on-npus-demo |
ecs_name |
string |
必填 |
云服务器实例名称,不支持重名。取值范围:1-60个字符,支持中文、英文字母、数字、_(下划线)、-(中划线)、.(点)。 |
model-inference-based-on-npus-demo |
swr_name |
string |
必填 |
swr组织名称,不支持重名。取值范围:2-64个字符,小写字母开头,支持小写字母、数字、-(中划线),小写字母或数字结尾。 |
model-inference-based-on-npus-demo |
entry_instructions |
string |
必填 |
swr临时登录指令,注意开头和结尾需要加英文双引号("),示例:"docker login -u cn-southwest-2@xxx -p xxx swr.cn-southwest-2.myhuaweicloud.com",请参考获取临时登录指令。 |
空 |
ecs_password |
string |
必填 |
云服务器密码,长度为8-26位,密码至少必须包含大写字母、小写字母、数字和特殊字符(!@$%^-_=+[{}]:,./?)中的三种,仅支持小写字母、数字、中划线(-)、英文句号(.)。修改密码,请参考重置云服务器密码登录ECS控制台修改密码。管理员账户默认root。 |
空 |
参数名称 |
类型 |
是否可选 |
参数解释 |
默认值 |
---|---|---|---|---|
functiongraph_name |
string |
必填 |
函数工作流 Functiongraph函数名称,不支持重名。取值范围:长度为2-57个字符,支持字母、数字、_(下划线)和-(中划线),以字母开头,以字母或数字结尾。 |
model-inference-based-on-npus-demo |
domain_username |
string |
必填 |
IAM用户所属的华为云账号名称。取值范围:6-30 个字符,以字母开头,支持字母、数字、下划线(_)、中划线(-)。 |
空 |
username |
string |
必填 |
IAM用户名。取值范围:1-64个字符,支持字母、数字、下划线(_)、中划线(-)、点(.)不能以数字或空格开头,如果您的华为云账号已升级为华为账号,将不支持获取账号Token,建议您为自己创建一个IAM用户,授予该用户必要的权限,获取IAM用户Token。 |
空 |
password |
string |
必填 |
IAM用户密码。取值范围:8-32个字符,支持字母、数字、特殊字符,不能包含空格,为避免获取Token失败,请务必保证密码输入正确。 |
空 |
model_obs_path |
string |
必填 |
模型所在的OBS路径。路经格式:https://桶名.obs.cn-southwest-2.myhuaweicloud.com/模型文件路径/。 |
空 |
environment_swr_path |
string |
必填 |
模型运行的SWR环境路径,请参考获取镜像地址,示例:swr.cn-southwest-2.myhuaweicloud.com/xxx/pytorch_2_1_ascend:909。 |
空 |
service_name |
string |
必填 |
在线服务名称。支持1-64位字符,可包含字母、中文、数字、中划线、下划线。 |
model-inference-based-on-npus-demo |
service_running_time |
string |
必填 |
服务运行的时间。单位:小时。取值范围:1-24的正整数。例如:1小时后停止服务,此参数填1。 |
1 |
specification |
string |
必填 |
在线服务资源规格。当前版本仅支持公共资源池的规格,可选modelarts.vm.cpu.2u/modelarts.vm.gpu.pnt004(需申请)/modelarts.vm.ai1.snt3(需申请)/custom(仅支持在部署到专属资源池时使用),需申请的规格请提交工单,由ModelArts运维工程师添加权限。 |
modelarts.bm.arm.snt9b1 |
instance_count |
string |
必填 |
在线服务模型部署的实例数。取值范围:1-128的正整数,当前限制最大实例数为128,如需使用更多的实例数,需提交工单申请。 |
1 |
ascend_rt_visible_devices |
string |
必填 |
在线服务NPU卡的数量,单卡设为0,4卡设为0,1,2,3。 |
0 |
model_path |
string |
必填 |
在线服务模型路径,格式为/home/mind/model/权重文件夹名称,例如:/home/mind/model/Qwen-7B-Chat。 |
/home/mind/model/Qwen-7B-Chat |
- 登录华为云解决方案实践,选择“基于PyTorch NPU快速部署开源大模型”,单击“一键部署(制作镜像)”,跳转至解决方案创建资源栈界面。
图1 解决方案实践
- 在选择模板界面中,单击“下一步”。
图2 选择模板
- 在配置参数界面中,请按下面的描述完成对应参数填写。参考表1 参数说明(制作镜像)完成自定义参数填写,单击“下一步”。
图3 配置参数
- 在资源设置界面中,在权限委托下拉框中选择“rf_admin_trust”委托(可不选),单击“下一步”。
图4 资源栈设置
- 在配置确认界面中,单击“创建执行计划”。
图5 配置确认
- 在弹出的创建执行计划框中,自定义填写执行计划名称,单击“确定”。
图6 创建执行计划
- 单击“部署”,并且在弹出的执行计划确认框中单击“执行”。
图7 执行计划
图8 执行计划确认
- 待“事件”中出现“Apply required resource success”,表示该解决方案已经部署完成。
图9 部署完成
- 参考制作镜像,获取镜像地址。
- 访问华为云解决方案实践,选择“基于PyTorch NPU快速部署开源大模型”,单击“一键部署(部署模型)”,跳转至解决方案创建资源栈界面,其余部署参考以上步骤2-8,(注:步骤3参考表2 参数说明(部署模型)完成自定义参数填写)。