ModelArts支持的监控指标
功能说明
为使用户更好地掌握自己的ModelArts在线服务和对应模型负载的运行状态,云服务平台提供了云监控。您可以使用该服务监控您的ModelArts在线服务和对应模型负载,执行自动实时监控、告警和通知操作,帮助您更好地了解服务和模型的各项性能指标。
命名空间
SYS.ModelArts
监控指标
指标ID |
指标名称 |
指标含义 |
取值范围 |
测量对象 |
监控周期 |
---|---|---|---|---|---|
cpu_usage |
CPU使用率 |
该指标用于统计ModelArts用户服务的CPU使用率。 单位:百分比。 |
≥ 0% |
ModelArts模型负载 |
1分钟 |
mem_usage |
内存使用率 |
该指标用于统计ModelArts用户服务的内存使用率。 单位:百分比。 |
≥ 0% |
ModelArts模型负载 |
1分钟 |
gpu_util |
GPU使用率 |
该指标用于统计ModelArts用户服务的GPU使用情况。 单位:百分比。 |
≥ 0% |
ModelArts模型负载 |
1分钟 |
gpu_mem_usage |
GPU显存使用率 |
该指标用于统计ModelArts用户服务的GPU显存使用情况。 单位:百分比。 |
≥ 0% |
ModelArts模型负载 |
1分钟 |
npu_util |
NPU使用率 |
该指标用于统计ModelArts用户服务的NPU使用情况。 单位:百分比。 |
≥ 0% |
ModelArts模型负载 |
1分钟 |
npu_mem_usage |
NPU显存使用率 |
该指标用于统计ModelArts用户服务的NPU显存使用情况。 单位:百分比。 |
≥ 0% |
ModelArts模型负载 |
1分钟 |
successfully_called_times |
调用成功次数 |
统计ModelArts用户调用服务的成功次数。 单位:次/分钟。 |
≥Count/min |
ModelArts模型负载 ModelArts在线服务 |
1分钟 |
failed_called_times |
调用失败次数 |
统计ModelArts用户调用服务的失败次数。 单位:次/分钟。 |
≥Count/min |
ModelArts模型负载 ModelArts在线服务 |
1分钟 |
total_called_times |
调用总次数 |
统计ModelArts用户调用服务的次数。 单位:次/分钟。 |
≥Count/min |
ModelArts模型负载 ModelArts在线服务 |
1分钟 |
disk_read_rate |
磁盘读取速率 |
统计ModelArts用户服务的磁盘读取速率 单位:bit/min |
≥bit/min |
ModelArts模型负载 |
1分钟 |
disk_write_rate |
磁盘写入速率 |
统计ModelArts用户服务的磁盘写入速率 单位:bit/min |
≥bit/min |
ModelArts模型负载 |
1分钟 |
send_bytes_rate |
上行速率 |
统计ModelArts用户服务的 出方向网络流速。 单位:bit/min |
≥bit/min |
ModelArts模型负载 |
1分钟 |
recv_bytes_rate |
下行速率 |
统计ModelArts用户服务的 入方向网络流速。 |
≥bit/min |
ModelArts模型负载 |
1分钟 |
req_count_2xx |
2xx响应次数 |
统计api接口2xx响应的次数 |
≥Count/min |
ModelArts在线服务 |
1分钟 |
req_count_4xx |
4xx异常次数 |
统计api接口返回4xx错误的次数 |
≥Count/min |
ModelArts在线服务 |
1分钟 |
req_count_5xx |
5xx异常次数 |
统计api接口返回5xx错误的次数 |
≥Count/min |
ModelArts在线服务 |
1分钟 |
avg_latency |
平均延迟毫秒数 |
统计api接口平均响应延时时间 |
≥ms |
ModelArts在线服务 |
1分钟 |
对于有多个测量维度的测量对象,使用接口查询监控指标时,所有测量维度均为必选。
|
维度
Key |
Value |
---|---|
service_id |
在线服务ID。 |
model_id |
模型负载ID。 |