更新时间:2024-04-30 GMT+08:00

ModelArts支持的监控指标

功能说明

为使用户更好地掌握自己的ModelArts在线服务和对应模型负载的运行状态,云服务平台提供了云监控。您可以使用该服务监控您的ModelArts在线服务和对应模型负载,执行自动实时监控、告警和通知操作,帮助您更好地了解服务和模型的各项性能指标。

命名空间

SYS.ModelArts

监控指标

表1 ModelArts支持的监控指标

指标ID

指标名称

指标含义

取值范围

测量对象

监控周期

cpu_usage

CPU使用率

该指标用于统计ModelArts用户服务的CPU使用率。

单位:百分比。

≥ 0%

ModelArts模型负载

1分钟

mem_usage

内存使用率

该指标用于统计ModelArts用户服务的内存使用率。

单位:百分比。

≥ 0%

ModelArts模型负载

1分钟

gpu_util

GPU使用率

该指标用于统计ModelArts用户服务的GPU使用情况。

单位:百分比。

≥ 0%

ModelArts模型负载

1分钟

gpu_mem_usage

GPU显存使用率

该指标用于统计ModelArts用户服务的GPU显存使用情况。

单位:百分比。

≥ 0%

ModelArts模型负载

1分钟

npu_util

NPU使用率

该指标用于统计ModelArts用户服务的NPU使用情况。

单位:百分比。

≥ 0%

ModelArts模型负载

1分钟

npu_mem_usage

NPU显存使用率

该指标用于统计ModelArts用户服务的NPU显存使用情况。

单位:百分比。

≥ 0%

ModelArts模型负载

1分钟

successfully_called_times

调用成功次数

统计ModelArts用户调用服务的成功次数。

单位:次/分钟。

≥Count/min

ModelArts模型负载

ModelArts在线服务

1分钟

failed_called_times

调用失败次数

统计ModelArts用户调用服务的失败次数。

单位:次/分钟。

≥Count/min

ModelArts模型负载

ModelArts在线服务

1分钟

total_called_times

调用总次数

统计ModelArts用户调用服务的次数。

单位:次/分钟。

≥Count/min

ModelArts模型负载

ModelArts在线服务

1分钟

disk_read_rate

磁盘读取速率

统计ModelArts用户服务的磁盘读取速率

单位:bit/min

≥bit/min

ModelArts模型负载

1分钟

disk_write_rate

磁盘写入速率

统计ModelArts用户服务的磁盘写入速率

单位:bit/min

≥bit/min

ModelArts模型负载

1分钟

send_bytes_rate

上行速率

统计ModelArts用户服务的

出方向网络流速。

单位:bit/min

≥bit/min

ModelArts模型负载

1分钟

recv_bytes_rate

下行速率

统计ModelArts用户服务的

入方向网络流速。

≥bit/min

ModelArts模型负载

1分钟

req_count_2xx

2xx响应次数

统计api接口2xx响应的次数

≥Count/min

ModelArts在线服务

1分钟

req_count_4xx

4xx异常次数

统计api接口返回4xx错误的次数

≥Count/min

ModelArts在线服务

1分钟

req_count_5xx

5xx异常次数

统计api接口返回5xx错误的次数

≥Count/min

ModelArts在线服务

1分钟

avg_latency

平均延迟毫秒数

统计api接口平均响应延时时间

≥ms

ModelArts在线服务

1分钟

对于有多个测量维度的测量对象,使用接口查询监控指标时,所有测量维度均为必选。

  • 查询单个监控指标时,多维度dim使用样例:dim.0=service_id,530cd6b0-86d7-4818-837f-935f6a27414d&dim.1="model_id,3773b058-5b4f-4366-9035-9bbd9964714a。
  • 批量查询监控指标时,多维度dim使用样例:

    "dimensions": [

    {

    "name": "service_id",

    "value": "530cd6b0-86d7-4818-837f-935f6a27414d"

    }

    {

    "name": "model_id",

    "value": "3773b058-5b4f-4366-9035-9bbd9964714a"

    }

    ]

维度

表2 维度说明

Key

Value

service_id

在线服务ID。

model_id

模型负载ID。