一键部署

昇腾云裸金属机器单台资源为8卡。如果您购买的是单台裸金属资源，可部署该解决方案主要部署的模型列表中的最小卡数（64G显存）小于等于8的模型，可使用单机部署。如果最小卡数（64G显存）等于16，请参考多机部署

模型权重路径：/home/models-file/

魔坊（ModelArts）模型训推平台6.5.908官方版本

大语言模型&Embedding&Rerank

单机部署

通过远程连接工具登录昇腾云裸金属服务器，在服务器中执行如下命令：

export model_name=根据变量解释填写
export required_cards=根据变量解释填写
export port=根据变量解释填写
wget -P /home/ https://documentation-samples-17.obs.cn-north-9.myhuaweicloud.com/solution-as-code-publicbucket/solution-as-code-module/quickly-deploy-llm-on-modelarts-lite-devserver/userdata/deploy-large-models/single-machine/deploy-large-models.sh && chmod 755 /home/deploy-large-models.sh && sh /home/deploy-large-models.sh ${model_name} ${required_cards} ${port}

参数解释：

model_name：模型名称，参考表1表中的模型名称
required_cards：NPU卡的数量，参考表1表中的最小卡数（64G显存）
port：服务部署的端口，创建多个实例的时候避免端口冲突

预计部署时间10分钟，当日志出现如下信息，表示模型部署成功，端口为步骤1定义的端口号。
参考本文档中的开通安全组章节，开放昇腾云机器对外提供访问端口的能力。

双机混部

两台昇腾云裸金属服务器任选其中一台服务器作为主节点，

在主节点执行如下命令：

export ray_head_ip=根据变量解释填写
export model_name=根据变量解释填写
export port=8080
wget -P /home/ https://documentation-samples-17.obs.cn-north-9.myhuaweicloud.com/solution-as-code-publicbucket/solution-as-code-module/quickly-deploy-llm-on-modelarts-lite-devserver/userdata/deploy-large-models/dual-machine/qwen3-235b-a22b.sh && chmod 755 /home/qwen3-235b-a22b.sh && sh /home/qwen3-235b-a22b.sh head ${ray_head_ip} ${model_name} ${port}

在副节点执行如下命令：

export ray_head_ip=根据变量解释填写
export model_name=根据变量解释填写
export port=8080
wget -P /home/ https://documentation-samples-17.obs.cn-north-9.myhuaweicloud.com/solution-as-code-publicbucket/solution-as-code-module/quickly-deploy-llm-on-modelarts-lite-devserver/userdata/deploy-large-models/dual-machine/qwen3-235b-a22b.sh && chmod 755 /home/qwen3-235b-a22b.sh && sh /home/qwen3-235b-a22b.sh worker ${ray_head_ip} ${model_name} ${port}

参数解释：

ray_head_ip：主节点的私网IP地址。在主节点服务器上执行以下命令可获取该地址：
```
hostname -I | awk '{print $1}'
```
model_name：模型名称，具体请参考“表1”中的模型名称
port：服务部署的端口号，默认为8080。如若端口冲突，可自行修改。

当显示如下回显信息（其中端口号与启动服务时设置的端口号一致）时，表示模型已部署成功，整个过程预计耗时约15分钟。
参考本文档中的开通安全组章节，开放昇腾云机器对外提供访问端口的能力。

多模态模型

单机部署

通过远程连接工具登录昇腾云裸金属服务器，在服务器中执行如下命令：

export model_name=根据变量解释填写
export required_cards=根据变量解释填写
export port=根据变量解释填写
wget -P /home/ https://documentation-samples-17.obs.cn-north-9.myhuaweicloud.com/solution-as-code-publicbucket/solution-as-code-module/quickly-deploy-llm-on-modelarts-lite-devserver/userdata/deploy-vl-model/single-machine/deploy-qwen3-vl-model.sh && chmod 755 /home/deploy-qwen3-vl-model.sh && sh /home/deploy-qwen3-vl-model.sh ${model_name} ${required_cards} ${port}

参数解释：

model_name：模型名称，参考表1表中的模型名称
required_cards：NPU卡的数量，参考表1表中的最小卡数（64G显存）
port：服务部署的端口，创建多个实例的时候避免端口冲突

预计部署时间10分钟，当日志出现如下信息，表示模型部署成功，端口为步骤1定义的端口号。
参考本文档中的开通安全组章节，开放昇腾云机器对外提供访问端口的能力。

双机混部

两台昇腾云裸金属服务器任选其中一台服务器作为主节点，

在主节点执行如下命令：

export ray_head_ip=根据变量解释填写
export model_name=根据变量解释填写
export port=8080
wget -P /home/ https://documentation-samples-17.obs.cn-north-9.myhuaweicloud.com/solution-as-code-publicbucket/solution-as-code-module/quickly-deploy-llm-on-modelarts-lite-devserver/userdata/deploy-vl-model/dual-machine/qwen3-vl-235b-a22b.sh && sh /home/qwen3-vl-235b-a22b.sh head ${ray_head_ip} ${model_name} ${port}

在副节点执行如下命令：

export ray_head_ip=根据变量解释填写
export model_name=根据变量解释填写
export port=8080
wget -P /home/ https://documentation-samples-17.obs.cn-north-9.myhuaweicloud.com/solution-as-code-publicbucket/solution-as-code-module/quickly-deploy-llm-on-modelarts-lite-devserver/userdata/deploy-vl-model/dual-machine/qwen3-vl-235b-a22b.sh && sh /home/qwen3-vl-235b-a22b.sh worker ${ray_head_ip} ${model_name} ${port}

参数解释：

ray_head_ip：主节点的私网IP地址。在主节点服务器上执行以下命令可获取该地址：
```
hostname -I | awk '{print $1}'
```
model_name：模型名称，具体请参考“表1”中的模型名称
port：服务部署的端口号，默认为8080。如若端口冲突，可自行修改。

当显示如下回显信息（其中端口号与启动服务时设置的端口号一致）时，表示模型已部署成功，整个过程预计耗时约15分钟。
参考本文档中的开通安全组章节，开放昇腾云机器对外提供访问端口的能力。

、

Vllm-Ascend开源版本

通过远程连接工具登录昇腾云裸金属服务器，在服务器中执行如下命令：

export model_name=根据变量解释填写
export required_cards=根据变量解释填写
export port=根据变量解释填写
wget -P /home/ https://documentation-samples-17.obs.cn-north-9.myhuaweicloud.com/solution-as-code-publicbucket/solution-as-code-module/quickly-deploy-llm-on-modelarts-lite-devserver/userdata/deploy-large-models/single-machine/open_source/deploy-ai-models.sh && chmod 755 /home/deploy-ai-models.sh && sh /home/deploy-ai-models.sh ${model_name} ${required_cards} ${port}