在云监控平台查看在线服务性能指标
ModelArts支持的监控指标
为使用户更好地掌握自己的ModelArts在线服务和对应模型负载的运行状态,云服务平台提供了云监控。您可以使用该服务监控您的ModelArts在线服务和对应模型负载,执行自动实时监控、告警和通知操作,帮助您更好地了解服务和模型的各项性能指标。
指标ID |
指标名称 |
指标含义 |
取值范围 |
测量对象 |
监控周期 |
---|---|---|---|---|---|
cpu_usage |
CPU使用率 |
该指标用于统计ModelArts用户服务的CPU使用率。 单位:百分比。 |
≥ 0% |
ModelArts模型负载 |
1分钟 |
mem_usage |
内存使用率 |
该指标用于统计ModelArts用户服务的内存使用率。 单位:百分比。 |
≥ 0% |
ModelArts模型负载 |
1分钟 |
gpu_util |
GPU使用率 |
该指标用于统计ModelArts用户服务的GPU使用情况。 单位:百分比。 |
≥ 0% |
ModelArts模型负载 |
1分钟 |
gpu_mem_usage |
GPU显存使用率 |
该指标用于统计ModelArts用户服务的GPU显存使用情况。 单位:百分比。 |
≥ 0% |
ModelArts模型负载 |
1分钟 |
npu_util |
NPU使用率 |
该指标用于统计ModelArts用户服务的NPU使用情况。 单位:百分比。 |
≥ 0% |
ModelArts模型负载 |
1分钟 |
npu_mem_usage |
NPU显存使用率 |
该指标用于统计ModelArts用户服务的NPU显存使用情况。 单位:百分比。 |
≥ 0% |
ModelArts模型负载 |
1分钟 |
successfully_called_times |
调用成功次数 |
统计ModelArts用户调用服务的成功次数。 单位:次/分钟。 |
≥Count/min |
ModelArts模型负载 ModelArts在线服务 |
1分钟 |
failed_called_times |
调用失败次数 |
统计ModelArts用户调用服务的失败次数。 单位:次/分钟。 |
≥Count/min |
ModelArts模型负载 ModelArts在线服务 |
1分钟 |
total_called_times |
调用总次数 |
统计ModelArts用户调用服务的次数。 单位:次/分钟。 |
≥Count/min |
ModelArts模型负载 ModelArts在线服务 |
1分钟 |
disk_read_rate |
磁盘读取速率 |
统计ModelArts用户服务的磁盘读取速率 单位:bit/min |
≥bit/min |
ModelArts模型负载 |
1分钟 |
disk_write_rate |
磁盘写入速率 |
统计ModelArts用户服务的磁盘写入速率 单位:bit/min |
≥bit/min |
ModelArts模型负载 |
1分钟 |
send_bytes_rate |
上行速率 |
统计ModelArts用户服务的 出方向网络流速。 单位:bit/min |
≥bit/min |
ModelArts模型负载 |
1分钟 |
recv_bytes_rate |
下行速率 |
统计ModelArts用户服务的 入方向网络流速。 |
≥bit/min |
ModelArts模型负载 |
1分钟 |
req_count_2xx |
2xx响应次数 |
统计api接口2xx响应的次数 |
≥Count/min |
ModelArts在线服务 |
1分钟 |
req_count_4xx |
4xx异常次数 |
统计api接口返回4xx错误的次数 |
≥Count/min |
ModelArts在线服务 |
1分钟 |
req_count_5xx |
5xx异常次数 |
统计api接口返回5xx错误的次数 |
≥Count/min |
ModelArts在线服务 |
1分钟 |
avg_latency |
平均延迟毫秒数 |
统计api接口平均响应延时时间 |
≥ms |
ModelArts在线服务 |
1分钟 |
tp_99 |
TP99 |
上1分钟内,统计该请求每次响应所消耗的时间,并将这些时间按从小到大的顺序进行排序,取第99%的值作为TP99的值。 |
≥ms |
ModelArts在线服务 |
1分钟 |
tp_999 |
TP99.9 |
上1分钟内,统计该请求每次响应所消耗的时间,并将这些时间按从小到大的顺序进行排序,取第99.9%的值作为TP99.9的值。 |
≥ms |
ModelArts在线服务 |
1分钟 |
对于有多个测量维度的测量对象,使用接口查询监控指标时,所有测量维度均为必选。
|
Key |
Value |
---|---|
service_id |
在线服务ID。 |
model_id |
模型负载ID。 |
设置告警规则
通过设置ModelArts在线服务和模型负载告警规则,用户可自定义监控目标与通知策略,及时了解ModelArts在线服务和模型负载状况,从而起到预警作用。
设置ModelArts服务和模型的告警规则包括设置告警规则名称、监控对象、监控指标、告警阈值、监控周期和是否发送通知等参数。本节介绍了设置ModelArts服务和模型告警规则的具体方法。
只有“运行中”的在线服务,支持对接CES监控。
前提条件:
- 已创建ModelArts在线服务。
- 已在云监控服务创建ModelArts监控服务。登录 控制台,在 页面,根据界面提示创建ModelArts监控服务。
设置告警规则有多种方式。您可以根据实际应用场景,选择设置告警规则的方式。
- 对ModelArts服务设置告警规则
- 对单个服务设置告警规则
- 对模型版本设置告警规则
- 对服务或模型版本的单个指标设置告警规则
方式一:对整个ModelArts服务设置告警规则
- 登录管理控制台。
- 在“服务列表”中选择 ,进入“云监控服务”管理控制台。
- 在左侧导航栏,选择 页面,单击“创建告警规则”。
- 在“创建告警规则”页面,“资源类型”选择“ModelArts”,“维度”选择“服务”,“触发规则”选择“自定义创建”,设置告警策略,完成其他信息填写后,单击“立即创建”。
方式二:对单个服务设置告警规则
- 登录管理控制台。
- 在“服务列表”中选择 ,进入“云监控服务”管理控制台。
- 在左侧导航栏,选择 。
- 选择需要添加告警规则的在线服务名称,单击操作列的“创建告警规则”。
- 在“创建告警规则”界面,根据界面提示设置ModelArts在线服务和模型负载的告警规则。
方式三:对单个版本设置告警规则
- 登录管理控制台。
- 在“服务列表”中选择 ,进入“云监控服务”管理控制台。
- 在左侧导航栏,选择 。
- 单击在线服务名称前面的小三角,展示模型版本列表,选择需要设置告警规则的模型版本,单击操作列的“创建告警规则”。
- 在“创建告警规则”界面,根据界面提示设置模型负载的告警规则。
方式四:对服务或模型版本的单个指标设置告警规则
- 登录管理控制台。
- 在“服务列表”中选择 ,进入“云监控服务”管理控制台。
- 在左侧导航栏,选择 。
- 单击在线服务名称或单击在线服务名称前面的小三角,展示模型版本列表,单击模型版本名称,查看告警规则详情。
- 在告警规则详情页,单击单个指标右上角的加号按钮,对服务或模型版本的单个指标设置告警规则。
查看监控指标
云服务平台提供的云监控,可以对ModelArts在线服务和模型负载运行状态进行日常监控。您可以通过管理控制台,直观地查看ModelArts在线服务和模型负载的各项监控指标。由于监控数据的获取与传输会花费一定时间,因此,云监控显示的是当前时间5~10分钟前的状态。如果您的在线服务刚创建完成,请等待5~10分钟后查看监控数据。
前提条件:
- ModelArts在线服务正常运行。
- 已在云监控页面设置告警规则,具体操作请参见设置告警规则。
- 在线服务已正常运行一段时间(约10分钟)。
- 对于新创建的在线服务,需要等待一段时间,才能查看上报的监控数据和监控视图。
- 故障、删除状态的在线服务,无法在云监控中查看其监控指标。当在线服务再次启动或恢复后,即可正常查看。
对接云监控之前,用户无法查看到未对接资源的监控数据。具体操作,请参见设置告警规则。
- 登录管理控制台。
- 在“服务列表”中选择 ,进入“云监控服务”管理控制台。
- 在左侧导航栏,选择 。
- 查看监控图表。
- 查看在线服务监控图表:单击目标在线服务“操作”列的“查看监控指标”。
- 查看模型负载监控图标:单击目标在线服务左侧的,在下拉列表中选择模型负载“操作”列的“查看监控指标”。
- 在监控区域,您可以通过选择时长,查看对应时间的监控数据。
当前支持查看近1小时、近3小时和近12小时的监控数据,查看更长时间范围监控曲线,请在监控视图中单击进入大图模式查看。