更新时间:2024-10-22 GMT+08:00
分享

附录:基于vLLM不同模型推理支持最小卡数和最大序列说明

基于vLLM(v0.6.0)部署推理服务时,不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。

以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度,不代表最佳性能。

以llama2-13b为例,NPU卡显存为32GB时,至少需要2张卡运行推理业务,2张卡运行的情况下,推荐的最大序列max-model-len长度最大是16K,此处的单位K是1024,即16*1024。

测试方法:gpu-memory-utilization为0.9下,以4k、8k、16k递增max-model-len,直至达到能执行静态benchmark下的最大max-model-len。

表1 基于vLLM不同模型推理支持最小卡数和最大序列说明

序号

模型名

32GB显存

64GB显存

最小卡数

最大序列(K)

max-model-len

最小卡数

最大序列(K)

max-model-len

1

llama-7b

1

16

1

32

2

llama-13b

2

16

1

16

3

llama-65b

8

16

4

16

4

llama2-7b

1

16

1

32

5

llama2-13b

2

16

1

16

6

llama2-70b

8

32

4

64

7

llama3-8b

1

32

1

128

8

llama3-70b

8

32

4

64

9

qwen-7b

1

8

1

32

10

qwen-14b

2

16

1

16

11

qwen-72b

8

8

4

16

12

qwen1.5-0.5b

1

128

1

256

13

qwen1.5-7b

1

8

1

32

14

qwen1.5-1.8b

1

64

1

128

15

qwen1.5-14b

2

16

1

16

16

qwen1.5-32b

4

32

2

64

17

qwen1.5-72b

8

8

4

16

18

qwen1.5-110b

--

8

128

19

qwen2-0.5b

1

128

1

256

20

qwen2-1.5b

1

64

1

128

21

qwen2-7b

1

8

1

32

22

qwen2-72b

8

32

4

64

23

chatglm2-6b

1

64

1

128

24

chatglm3-6b

1

64

1

128

25

glm-4-9b

1

32

1

128

26

baichuan2-7b

1

8

1

32

27

baichuan2-13b

2

4

1

4

28

yi-6b

1

64

1

128

29

yi-9b

1

32

1

64

30

yi-34b

4

32

2

64

31

deepseek-llm-7b

1

16

1

32

32

deepseek-coder-instruct-33b

4

32

2

64

33

deepseek-llm-67b

8

32

4

64

34

mistral-7b

1

32

1

128

35

mixtral-8x7b

4

8

2

32

36

gemma-2b

1

64

1

128

37

gemma-7b

1

8

1

32

38

falcon-11b

1

8

1

64

相关文档