查看在线服务日志
场景描述
ModelArts推理服务中提供查看实时日志的能力,也支持日志对接LTS服务。可用于调试模型启动状态、核查请求出入参、定位运行故障,也能核验业务逻辑与分析推理性能问题。
| 维度 | 在线服务实时日志 | 日志对接LTS服务 |
|---|---|---|
| 日志涵盖范围 | 仅展示容器标准输出、错误日志,无平台调度日志 | 展示容器标准输出、错误日志,无平台调度日志 同时采集Kubernetes事件,即Pod事件。 |
| 存储与历史能力 | 无持久化,仅保留当前实例运行的最新片段,实例重启销毁后日志丢失,无法回溯 | 持久化存储,可自定义保存周期,默认缓存7天内的运行日志支持历史查询。 |
| 核心功能 | 基础查看、简易关键词检索 | 多维检索、数据分析、日志告警、日志归档 |
| 使用场景 | 模型调试、即时排查单次推理问题 | 生产运维、故障回溯、合规审计、性能统计 |
| 开启方式 | 默认自动开启 | 在部署在线服务的配置服务信息阶段,手动配置。 |
| 计费说明 | 实时日志本身不计费 | LTS按需计费 具体可参见云日志服务价格详情 |
查看在线服务实时日志
- 参考推理在线服务单机部署创建一个在线服务,“高级配置”不勾选“日志对接LTS”。 图1 不勾选日志对接LTS
- 服务进入“运行中”后,单击服务名称进入服务详情页面,切换到“日志”页签,选择实例和Pod查看服务实时日志。 图2 查看服务日志
查看在线服务上报到LTS的日志
- 创建资源池时,安装云原生日志采集插件,详细操作请参考创建专属资源池。
- 参考部署在线服务-部署配置,创建一个在线服务,在“高级配置”勾选“日志对接LTS”。 图3 日志对接LTS
或修改在线服务时启用LTS服务,在在线服务列表页,单击目标服务“操作”列的“更多>修改服务”,在“高级配置”勾选“日志对接LTS”。
参数
说明
采集容器标准输出
勾选“日志对接LTS”后,系统默认勾选“采集容器标准输出”,不可以修改。
采集所有的容器标准输出并上报到云日志服务 LTS,日志保存时间为对应日志组的存储时间,默认为 30 天:
- 针对专属资源池部署,LTS 日志组和日志流为安装资源池日志采集插件时创建并选择的日志组和日志流;
- 针对公共资源池部署,系统会自动创建 LTS 日志组和日志流,对应的 LTS 日志组和日志流命名规范为日志组: Modelarts-Infer-Log-Group-{NUM},日志流: Inf-Stdout-{serviceId}。
采集Kubernete事件
勾选“日志对接LTS”后,可以手动勾选“采集Kubernete事件”。
勾选后,会采集 Kubernetes 事件即Pod事件并上报到云日志服务LTS,日志默认保存 7 天。用户在推理服务详情页的事件列表可以查看Pod事件,具体操作请参见查看在线服务的事件。
如果不勾选,在推理服务详情页的事件列表仅可以查看最近1小时的Pod事件。
- 服务对接LTS日志后,进入服务详情页,切换至“日志”页签查看日志。
- 选择待查看的部署、实例和Pod(也可选择已删除的实例和Pod,用于定位实例和Pod异常退出的原因)。 图4 查看实例日志
- 选择日志的时间范围。 图5 选择查看日志的时间范围
- 查看日志信息。
- 日志搜索:通过输入搜索语句,在日志数据中查找包含特定关键词的日志记录。或者根据时间范围来检索日志数据,帮助您定位特定时间段内发生的事件和问题。
- 统计图表:日志上报LTS后,支持通过SQL分析语法搜索关键日志数据,并将查询结果通过统计图表的方式进行可视化展示。
- 日志分析:执行搜索与分析前,需要将上报的日志进行结构化配置和索引配置,方便进行搜索与分析。
- 实时日志:在线服务运行日志接入LTS后,每隔大约1分钟上报一次。因此,在实时日志页面,您最多需要等待1分钟左右,即可查看实时上报的日志,实现对日志数据的快速检索与分析。
详情请参考云日志服务 LTS。
- 可以通过配置LTS日志告警,及时发现异常日志信息,从而进一步解决异常问题。
配置LTS日志告警
- 服务对接LTS日志后,进入服务详情页,切换至“日志”页签查看日志。
- 单击“日志设置”,在设置弹框中,切换至告警规则页签。
- 单击“创建”,在“新建告警规则”弹框中配置告警规则。
更多参数说明请见配置日志告警规则。
如果需要出现告警时增加通知,请打开告警通知规则,单击创建告警通知规则,前往LTS控制台创建告警通知规则,详情请见配置日志告警通知规则。
- 单击“确定”,关键词告警规则创建成功。
创建的告警可以在日志设置弹框中修改告警配置等,详情请见告警规则后续操作。
常见问题
在线服务部署或者实例重启时,如何及时感知业务容器异常?
在部署模型服务时,系统需要从存储服务中下载文件并挂载到业务容器中以完成服务部署。然而,在实际运行过程中,当依赖的存储服务出现异常(如网络中断、服务不可用或磁盘空间不足)时,系统无法有效感知这些异常情况,导致服务部署失败或持续处于不可用状态,且无相关事件上报,影响了服务的可靠性和用户体验。
为了解决这一问题,推理平台提供了与LTS日志系统的对接能力,通过LTS日志告警功能,开发人员可以较为及时地感知到模型权重文件读取过程中的异常,确保服务部署的顺利进行。
请参考“常见问题:在线服务部署或者实例重启时,如何及时感知业务容器异常?”进行排查处理。
