更新时间:2024-11-05 GMT+08:00
分享

快速部署

本章节主要帮助用户快速部署“基于PyTorch NPU快速部署开源大模型”解决方案。

表1 参数说明(制作镜像)

参数名称

类型

是否可选

参数解释

默认值

vpc_name

string

必填

虚拟私有云名称,该模板使用新建VPC,不允许重名。取值范围:1-54个字符,支持中文、英文字母、数字、_(下划线)、-(中划线)、.(点)。

model-inference-based-on-npus-demo

secgroup_name

string

必填

安全组名称,该模板新建安全组,请参考安全组规则修改进行配置。取值范围:1-64个字符,支持字母、数字、中文、下划线(_)、中划线(-)、英文句号(.)。

model-inference-based-on-npus-demo

ecs_name

string

必填

云服务器实例名称,不支持重名。取值范围:1-60个字符,支持中文、英文字母、数字、_(下划线)、-(中划线)、.(点)。

model-inference-based-on-npus-demo

swr_name

string

必填

swr组织名称,不支持重名。取值范围:2-64个字符,小写字母开头,支持小写字母、数字、-(中划线),小写字母或数字结尾。

model-inference-based-on-npus-demo

entry_instructions

string

必填

swr临时登录指令,注意开头和结尾需要加英文双引号("),示例:"docker login -u cn-southwest-2@xxx -p xxx swr.cn-southwest-2.myhuaweicloud.com",请参考获取临时登录指令

ecs_password

string

必填

云服务器密码,长度为8-26位,密码至少必须包含大写字母、小写字母、数字和特殊字符(!@$%^-_=+[{}]:,./?)中的三种,仅支持小写字母、数字、中划线(-)、英文句号(.)。修改密码,请参考重置云服务器密码登录ECS控制台修改密码。管理员账户默认root。

表2 参数说明(部署模型)

参数名称

类型

是否可选

参数解释

默认值

functiongraph_name

string

必填

函数工作流 Functiongraph函数名称,不支持重名。取值范围:长度为2-57个字符,支持字母、数字、_(下划线)和-(中划线),以字母开头,以字母或数字结尾。

model-inference-based-on-npus-demo

domain_username

string

必填

IAM用户所属的华为云账号名称。取值范围:6-30 个字符,以字母开头,支持字母、数字、下划线(_)、中划线(-)。

username

string

必填

IAM用户名。取值范围:1-64个字符,支持字母、数字、下划线(_)、中划线(-)、点(.)不能以数字或空格开头,如果您的华为云账号已升级为华为账号,将不支持获取账号Token,建议您为自己创建一个IAM用户,授予该用户必要的权限,获取IAM用户Token。

password

string

必填

IAM用户密码。取值范围:8-32个字符,支持字母、数字、特殊字符,不能包含空格,为避免获取Token失败,请务必保证密码输入正确。

model_obs_path

string

必填

模型所在的OBS路径。路经格式:https://桶名.obs.cn-southwest-2.myhuaweicloud.com/模型文件路径/。

environment_swr_path

string

必填

模型运行的SWR环境路径,请参考获取镜像地址,示例:swr.cn-southwest-2.myhuaweicloud.com/xxx/pytorch_2_1_ascend:909

service_name

string

必填

在线服务名称。支持1-64位字符,可包含字母、中文、数字、中划线、下划线。

model-inference-based-on-npus-demo

service_running_time

string

必填

服务运行的时间。单位:小时。取值范围:1-24的正整数。例如:1小时后停止服务,此参数填1。

1

specification

string

必填

在线服务资源规格。当前版本仅支持公共资源池的规格,可选modelarts.vm.cpu.2u/modelarts.vm.gpu.pnt004(需申请)/modelarts.vm.ai1.snt3(需申请)/custom(仅支持在部署到专属资源池时使用),需申请的规格请提交工单,由ModelArts运维工程师添加权限。

modelarts.bm.arm.snt9b1

instance_count

string

必填

在线服务模型部署的实例数。取值范围:1-128的正整数,当前限制最大实例数为128,如需使用更多的实例数,需提交工单申请。

1

ascend_rt_visible_devices

string

必填

在线服务NPU卡的数量,单卡设为0,4卡设为0,1,2,3。

0

model_path

string

必填

在线服务模型路径,格式为/home/mind/model/权重文件夹名称,例如:/home/mind/model/Qwen-7B-Chat。

/home/mind/model/Qwen-7B-Chat

  1. 登录华为云解决方案实践选择“基于PyTorch NPU快速部署开源大模型”,单击“一键部署(制作镜像)”,跳转至解决方案创建资源栈界面。

    图1 解决方案实践

  2. 在选择模板界面中,单击“下一步”。

    图2 选择模板

  3. 在配置参数界面中,请按下面的描述完成对应参数填写。参考表1 参数说明(制作镜像)完成自定义参数填写,单击“下一步”。

    图3 配置参数

  4. 在资源设置界面中,在权限委托下拉框中选择“rf_admin_trust”委托(可不选),单击“下一步”。

    图4 资源栈设置

  5. 在配置确认界面中,单击“创建执行计划”。

    图5 配置确认

  6. 在弹出的创建执行计划框中,自定义填写执行计划名称,单击“确定”。

    图6 创建执行计划

  7. 单击“部署”,并且在弹出的执行计划确认框中单击“执行”。

    图7 执行计划
    图8 执行计划确认

  8. 待“事件”中出现“Apply required resource success”,表示该解决方案已经部署完成。

    图9 部署完成

  9. 参考制作镜像,获取镜像地址。
  10. 访问华为云解决方案实践选择“基于PyTorch NPU快速部署开源大模型”,单击“一键部署(部署模型)”,跳转至解决方案创建资源栈界面,其余部署参考以上步骤2-8,(注:步骤3参考表2 参数说明(部署模型)完成自定义参数填写)。

相关文档