SD3.5基于Lite Server适配PyTorch NPU的推理指导（6.3.912）

更新时间：2025-02-07 GMT+08:00

查看PDF

Stable Diffusion（简称SD）是一种基于扩散过程的图像生成模型，应用于文生图场景，能够帮助用户生成图像。

本文基于diffusers和comfyui两个框架进行适配。

方案概览

本方案介绍了在ModelArts Lite Server上使用昇腾计算资源Ascend Snt9B开展SD3.5模型的推理过程。

资源规格要求

推荐使用“西南-贵阳一”Region上的Server资源和Ascend Snt9B单机。

表1 环境要求
名称	版本
driver	23.0.6
PyTorch	pytorch_2.1.0

获取软件和镜像

表2 获取软件和镜像
分类	名称	获取路径
插件代码包	AscendCloud-6.3.912软件包中的AscendCloud-AIGC-6.3.912-xxx.zip	获取路径：Support-E，在此路径中查找下载ModelArts 6.3.912 版本。说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。
基础镜像包	swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc3-py_3.9-hce_2.0.2409-aarch64-snt9b-20241213131522-aafe527	SWR上拉取。

约束限制

本文档适配昇腾云ModelArts 6.3.912版本，请参考表2获取配套版本的软件包和镜像，请严格遵照版本配套关系使用本文档。
确保容器可以访问公网。

步骤一：检查环境

请参考Lite Server资源开通，购买Lite Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。
说明：

购买Server资源时如果无可选资源规格，需要联系华为云技术支持申请开通。

当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。
SSH登录机器后，检查NPU卡状态。运行如下命令，返回NPU设备信息。
```
npu-smi info                    # 在每个实例节点上运行此命令可以看到NPU卡状态
npu-smi info -l | grep Total    # 在每个实例节点上运行此命令可以看到总卡数
```
如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。

检查是否安装docker。

docker -v   #检查docker是否安装

如尚未安装，运行以下命令安装docker。

yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64

配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。
```
sysctl -p | grep net.ipv4.ip_forward
```
如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。
```
sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf
sysctl -p | grep net.ipv4.ip_forward
```
获取基础镜像。建议使用官方提供的镜像部署推理服务。镜像地址{image_url}参见表1：获取软件和镜像
```
docker pull {image_url}
```
启动容器镜像。启动前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。
```
docker run -itd \
--name ${container_name} \
-v /sys/fs/cgroup:/sys/fs/cgroup:ro \
-p 8443:8443 \
-v /etc/localtime:/etc/localtime \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
--shm-size 60g \
--device=/dev/davinci_manager \
--device=/dev/hisi_hdc \
--device=/dev/devmm_svm \
--device=/dev/davinci1 \
--network=bridge \
${image_name} bash
```
参数说明：
- --name ${container_name} 容器名称，进入容器时会用到，此处可以自己定义一个容器名称，例如sdxl-diffusers。
- --device=/dev/davinci1：挂载主机的/dev/davinci3到容器的/dev/davinci1。可以使用npu-smi info查看空闲卡号，修改davinci后数字可以更改挂载卡。
- ${image_name} 代表 ${image_name}。
- -p 8443:8443：容器内映射到宿主机的端口号，如果已被占用可以使用其他未占用的端口号
进入容器。需要将${container_name}替换为实际的容器名称。
```
docker exec -it ${container_name} bash
```

步骤二：上传代码、权重和数据集到容器中

安装插件代码包。
将获取到的插件代码包AscendCloud-AIGC-6.3.912-xxx.zip文件上传到容器的/home/ma-user目录下，并解压。
```
cd /home/ma-user
unzip AscendCloud-AIGC-6.3.912-*.zip #解压
```
下载模型权重，上传到容器的/home/ma-user目录下，官网下载地址（需登录）。
- 对于Diffusers框架，需要下载huggingface全部文件。
  stabilityai/stable-diffusion-3.5-medium：https://huggingface.co/stabilityai/stable-diffusion-3.5-medium/tree/main
  
  stabilityai/stable-diffusion-3.5-large：https://huggingface.co/stabilityai/stable-diffusion-3.5-large/tree/main
  
  如果无法手动下载，可以先在容器内命令行输入以下命令，然后使用个人huggingface token进行登录：
```
huggingface-cli login
```
  登录成功后，直接启动步骤三中的Diffusers推理脚本即可实现自动下载。
- 对于ComfyUI框架，只需要下载safetensors文件即可，即
   https://huggingface.co/stabilityai/stable-diffusion-3.5-medium/blob/main/sd3.5_medium.safetensors
  
  https://huggingface.co/stabilityai/stable-diffusion-3.5-large/blob/main/sd3.5_large.safetensors
  
  此外ComfyUI需要额外下载三个text_encoder相关模型：
  
  https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/blob/main/text_encoders/clip_l.safetensors
  
  https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/blob/main/text_encoders/clip_g.safetensors
  
  https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/blob/main/text_encoders/t5xxl_fp16.safetensors
  
  ComfyUI框架还需要下载推理所需的workflow：
  
  https://huggingface.co/stabilityai/stable-diffusion-3.5-medium/blob/main/SD3.5M_example_workflow.json
  
  https://huggingface.co/stabilityai/stable-diffusion-3.5-large/blob/main/SD3.5L_example_workflow.json

步骤三：使用Diffusers推理

进入容器中/home/ma-user/aigc_inference/torch_npu/diffusers/0_21_2/ascend_diffusers路径下。
```
cd /home/ma-user/aigc_inference/torch_npu/diffusers/0_21_2/ascend_diffusers
```

安装所需依赖包。

pip install -e .
pip install diffusers==0.31.0

开始推理。

export MODEL_NAME='下载好的huggingface模型路径，例如/home/ma-user/stable-diffusion-3.5-medium。如果未手动下载，想要自动下载的话直接配置模型名称即可，例如stabilityai/stable-diffusion-3.5-medium，见步骤二第2节'
cd examples
python sd_inference_example.py --sd35 --model_id ${MODEL_NAME} --prompt 'a dog' --num_inference_steps 28 --width 512 512 768 1024 768 --height 512 768 768 1024 1024 --dynamo

步骤四：使用ComfyUI推理

拉取ComfyUI代码。

cd /home/ma-user
git clone -c http.sslVerify=false https://github.com/comfyanonymous/ComfyUI.git 
cd ComfyUI 
# 切换到0.2.7分支  
git reset --hard 6966729

修改requirements.txt中的torch/torchvision/torchaudio版本号如下图：

保存requirements.txt后安装所需依赖：

# 安装依赖
pip install -r requirements.txt

进入容器中/home/ma-user/aigc_inference/torch_npu/diffusers/0_21_2/ascend_diffusers路径下。
```
cd /home/ma-user/aigc_inference/torch_npu/diffusers/0_21_2/ascend_diffusers
```
安装所需依赖包。
```
pip install -e .
pip install diffusers==0.31.0
```

使用comfyui_ascend_node。

cp -r /home/ma-user/aigc_inference/torch_npu/comfyui/a82fae2/comfyui_ascend_node /home/ma-user/ComfyUI/custom_nodes/

加载权重。
将下载好的sd3.5_medium.safetensors，sd3.5_large.safetensors到/home/ma-user/ComfyUI/models/checkpoints 目录下；

将下载好的text_encoder权重（clip_l.safetensors, clip_g.safetensors and t5xxl_fp16.safetensors），放到 /home/ma-user/ComfyUI/models/clip 目录下。

启动ComfyUI。

cd /home/ma-user/ComfyUI
export GRAPH_MODE=1
export INF_NAN_MODE_ENABLE=0
python main.py --port 8443 --force-fp16 --listen

--port 端口号与启动容器时映射到宿主机的端口号保持一致。

发送服务请求。
1. 从浏览器访问ComfyUI服务。在浏览器中输入 http://{ip}:{port}
  这里的ip为宿主机节点ip，port为启动ComfyUI使用的端口号。
2. 访问界面，页面工作流示例如下图所示。
3. 加载SD3.5workflow文件。单击“Load”，选择下载好的SD3.5M_example_workflow.json或者SD3.5L_example_workflow.json。
4. 选择diffusion model ，如下图。
  
  如果加载的是SD3.5M_example_workflow.json，这里选择sd3.5_medium.safetensors；如果加载的是SD3.5L_example_workflow.json，这里选择sd3.5_large.safetensors。
5. 选择clip 模型，如下图。
6. 配置推理的参数，如steps，width，height，batch_size等
7. 单击“Queue Prompt”加入推理队列进行推理，如下图。
  
  成功之后结果如下图所示。首次加载或切换模型推理时，需要加载模型并进行相关初始化工作，首次推理时间较长，请耐心等待。