更新时间:2026-04-08 GMT+08:00
分享

一键部署

昇腾云裸金属机器单台资源为8卡。如果您购买的是单台裸金属资源,可部署该解决方案主要部署的模型列表中的最小卡数(64G显存)小于等于8的模型,可使用单机部署。如果最小卡数(64G显存)等于16,请参考多机部署

模型权重路径:/home/models-file/

单机部署

  1. 通过远程连接工具登录昇腾云裸金属服务器,在服务器中执行如下命令:

    export model_name=根据变量解释填写
    export required_cards=根据变量解释填写
    export port=根据变量解释填写
    wget -P /home/ https://documentation-samples-17.obs.cn-north-9.myhuaweicloud.com/solution-as-code-publicbucket/solution-as-code-module/quickly-deploy-llm-on-modelarts-lite-devserver/userdata/deploy-large-models.sh && chmod 755 /home/deploy-large-models.sh && sh  /home/deploy-large-models.sh ${model_name} ${required_cards} ${port}

    参数解释:

    • model_name:模型名称,参考表1表中的模型名称
    • required_cards:NPU卡的数量,参考表1表中的最小卡数(64G显存)
    • port服务部署的端口,创建多个实例的时候避免端口冲突

  2. 预计部署时间15分钟,当日志出现如下信息,表示模型部署成功,端口为步骤1定义的端口号。
  3. 参考本文档中的开通安全组章节,开放昇腾云机器对外提供访问端口的能力。

双机混部

  1. 两台昇腾云裸金属服务器任选其中一台服务器作为主节点,

    在主节点执行如下命令:
    export ray_head_ip=根据变量解释填写
    export model_name=根据变量解释填写
    export port=8080
    wget -P /home/ https://documentation-samples-17.obs.cn-north-9.myhuaweicloud.com/solution-as-code-publicbucket/solution-as-code-module/quickly-deploy-llm-on-modelarts-lite-devserver/userdata/qwen3/qwen3-235b-a22b.sh && chmod 755 /home/qwen3-235b-a22b.sh && sh /home/qwen3-235b-a22b.sh head ${ray_head_ip} ${model_name} ${port}

    在副节点执行如下命令:

    export ray_head_ip=根据变量解释填写
    export model_name=根据变量解释填写
    export port=8080
    wget -P /home/ https://documentation-samples-17.obs.cn-north-9.myhuaweicloud.com/solution-as-code-publicbucket/solution-as-code-module/quickly-deploy-llm-on-modelarts-lite-devserver/userdata/qwen3/qwen3-235b-a22b.sh && chmod 755 /home/qwen3-235b-a22b.sh && sh /home/qwen3-235b-a22b.sh worker ${ray_head_ip} ${model_name} ${port}

    参数解释:

    • ray_head_ip:主节点的私网IP地址。在主节点服务器上执行以下命令可获取该地址:
      hostname -I | awk '{print $1}'
    • model_name:模型名称,具体请参考“表1”中的模型名称
    • port服务部署的端口号,默认为8080。如若端口冲突,可自行修改

  2. 当显示如下回显信息,表示模型部署成功。预计时间15分钟

  3. 参考本文档中的开通安全组章节,开放昇腾云机器对外提供访问端口的能力。

相关文档