在线服务预测时，如何提高预测速度？

在线推理服务预测时，有以下几种方式提高预测性能。

部署在线推理服务时，您可以选择性能更好、算力更加充沛的的“资源池”提高预测性能。资源池的算力基础直接决定推理的响应速度和并发承载能力，优先匹配高性能资源能从硬件层面释放推理潜力。
部署在线推理服务时，合理配置“部署副本数”。
如果部署副本设置为1，性能完全依赖单个副本，且可靠性不足，单点故障会导致服务不可用；建议将副本数配置大于1，不仅能提升整体服务的并发处理能力，还能通过多副本冗余保证服务可靠性。
推理性能与模型及推理框架紧密相关，选用带预置优化配置的推理引擎（如TensorRT-LLM、vLLM预置的模型优化配置），也可以通过模型压缩、量化、精简结构等方式优化模型，降低推理耗时。ModelArts中提供了模型资产管理的功能，方便溯源和模型反复调优。
ModelArts提供了预置的推理服务镜像、模型资产，已经完成框架适配、参数调优，可直接一键部署。

父主题： 推理部署（新版）

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨