更新时间:2026-04-08 GMT+08:00
一键部署
昇腾云裸金属机器单台资源为8卡。如果您购买的是单台裸金属资源,可部署该解决方案主要部署的模型列表中的最小卡数(64G显存)小于等于8的模型,可使用单机部署。如果最小卡数(64G显存)等于16,请参考多机部署
模型权重路径:/home/models-file/
单机部署
- 通过远程连接工具登录昇腾云裸金属服务器,在服务器中执行如下命令:
export model_name=根据变量解释填写 export required_cards=根据变量解释填写 export port=根据变量解释填写 wget -P /home/ https://documentation-samples-17.obs.cn-north-9.myhuaweicloud.com/solution-as-code-publicbucket/solution-as-code-module/quickly-deploy-llm-on-modelarts-lite-devserver/userdata/deploy-large-models.sh && chmod 755 /home/deploy-large-models.sh && sh /home/deploy-large-models.sh ${model_name} ${required_cards} ${port}
参数解释:
- 预计部署时间15分钟,当日志出现如下信息,表示模型部署成功,端口为步骤1定义的端口号。

- 参考本文档中的开通安全组章节,开放昇腾云机器对外提供访问端口的能力。

双机混部
- 两台昇腾云裸金属服务器任选其中一台服务器作为主节点, 在主节点执行如下命令:
export ray_head_ip=根据变量解释填写 export model_name=根据变量解释填写 export port=8080 wget -P /home/ https://documentation-samples-17.obs.cn-north-9.myhuaweicloud.com/solution-as-code-publicbucket/solution-as-code-module/quickly-deploy-llm-on-modelarts-lite-devserver/userdata/qwen3/qwen3-235b-a22b.sh && chmod 755 /home/qwen3-235b-a22b.sh && sh /home/qwen3-235b-a22b.sh head ${ray_head_ip} ${model_name} ${port}在副节点执行如下命令:
export ray_head_ip=根据变量解释填写 export model_name=根据变量解释填写 export port=8080 wget -P /home/ https://documentation-samples-17.obs.cn-north-9.myhuaweicloud.com/solution-as-code-publicbucket/solution-as-code-module/quickly-deploy-llm-on-modelarts-lite-devserver/userdata/qwen3/qwen3-235b-a22b.sh && chmod 755 /home/qwen3-235b-a22b.sh && sh /home/qwen3-235b-a22b.sh worker ${ray_head_ip} ${model_name} ${port}参数解释:
- ray_head_ip:主节点的私网IP地址。在主节点服务器上执行以下命令可获取该地址:
hostname -I | awk '{print $1}' - model_name:模型名称,具体请参考“表1”中的模型名称
- port:服务部署的端口号,默认为8080。如若端口冲突,可自行修改。
- ray_head_ip:主节点的私网IP地址。在主节点服务器上执行以下命令可获取该地址:
- 当显示如下回显信息,表示模型部署成功。预计时间15分钟。

- 参考本文档中的开通安全组章节,开放昇腾云机器对外提供访问端口的能力。

父主题: 实施步骤