在线服务部署或者实例重启时,如何及时感知业务容器异常?
问题现象
在云服务部署场景中,用户通常会使用对象存储服务OBS、并行文件系统PFS、弹性文件服务SFS Turbo来存储和管理模型权重文件。在部署模型服务或者实例重启时,系统需要从这些存储服务中下载文件并挂载到业务容器中以完成服务部署。然而,在实际运行过程中,当依赖的存储服务出现异常(如网络中断、服务不可用或磁盘空间不足)时,系统无法有效感知这些异常情况,导致服务部署失败或持续处于不可用状态,异常状态感知不及时,影响了服务的可靠性和用户体验。
配置LTS日志告警
为了解决这一问题,推理平台提供了与LTS日志系统的对接能力,通过LTS日志告警功能,开发人员可以较为及时地感知到模型权重文件读取过程中的异常,确保服务部署的顺利进行。
- 服务对接LTS日志后,进入服务详情页,切换至“日志”页签查看日志。
- 单击“日志设置”,在设置弹框中,切换至告警规则页签。
- 单击“创建”,在“新建告警规则”弹框中配置告警规则,“统计类型”选择“关键词统计”,根据您选择的镜像和权重,分析如果出现读取权重文件失败时,记录的错误日志的关键字有哪些,将其填写到云日志服务的关键词告警规则的关键词中。
更多参数说明请见配置关键词告警规则。
如果需要出现告警时增加通知,请打开告警通知规则,单击创建告警通知规则,前往LTS控制台创建告警通知规则,详情请见配置日志告警通知规则。
- 单击“确定”,关键词告警规则创建成功。
创建的告警可以在日志设置弹框中修改告警配置等,详情请见告警规则后续操作。
CES配置OBS/SFS Turbo指标告警规则
另外,也可通过云监控服务查看OBS/SFS Turbo自身的监控指标定位异常情况,详情请见CES创建告警规则和通知。OBS指标详情请见OBS监控指标说明。SFS Turbo指标详情请见SFS Turbo监控指标说明。