更新时间:2024-12-31 GMT+08:00
分享

产品规格

模型推理产品规格

表1 模型推理产品规格

类型

规格

算力

MU

mu.llama3.8b

为llama3.8b模型,提供短token场景约400RPM算力。

mu.llama3.70b

为llama3.70b模型,提供短token场景约100RPM算力。

mu.llama3.1.8b

为llama3.1.8b模型,提供短token场景约190RPM算力。

mu.llama3.1.70b

为llama3.1.70b模型,提供短token场景约130RPM算力。

mu.qwen2.72b

为qwen2.72b模型,提供短token场景约1700RPM算力。

mu.glm4.9b

为glm4.9b模型,提供短token场景约110RPM算力。

Ray集群产品规格

表2 ray产品规格

类型

规格

算力

DPU

fabric.ray.dpu.d1x

提供约4CPU16G内存算力。

fabric.ray.dpu.d2x

提供约8CPU32G内存算力。

fabric.ray.dpu.d4x

提供约16CPU64G内存算力。

fabric.ray.dpu.d8x

提供约32CPU128G内存算力。

fabric.ray.dpu.d16x

提供约64CPU256G内存算力。

fabric.ray.dpu.d32x

提供约128CPU512G内存算力。

APU

fabric.ray.apu.b1.1x

提供昇腾AI加速型(B1)1卡算力

fabric.ray.apu.b2.1x

提供昇腾AI加速型(B2)1卡算力

fabric.ray.apu.b3.1x

提供昇腾AI加速型(B3)1卡算力

fabric.ray.apu.b1.8x

提供昇腾AI加速型(B1)8卡算力

fabric.ray.apu.b2.8x

提供昇腾AI加速型(B2)8卡算力

fabric.ray.apu.b3.8x

提供昇腾AI加速型(B2)8卡算力

相关文档