更新时间:2024-08-16 GMT+08:00
分享

在云监控平台查看在线服务性能指标

ModelArts支持的监控指标

为使用户更好地掌握自己的ModelArts在线服务和对应模型负载的运行状态,云服务平台提供了云监控。您可以使用该服务监控您的ModelArts在线服务和对应模型负载,执行自动实时监控、告警和通知操作,帮助您更好地了解服务和模型的各项性能指标。

表1 ModelArts支持的监控指标

指标ID

指标名称

指标含义

取值范围

测量对象

监控周期

cpu_usage

CPU使用率

该指标用于统计ModelArts用户服务的CPU使用率。

单位:百分比。

≥ 0%

ModelArts模型负载

1分钟

mem_usage

内存使用率

该指标用于统计ModelArts用户服务的内存使用率。

单位:百分比。

≥ 0%

ModelArts模型负载

1分钟

gpu_util

GPU使用率

该指标用于统计ModelArts用户服务的GPU使用情况。

单位:百分比。

≥ 0%

ModelArts模型负载

1分钟

gpu_mem_usage

GPU显存使用率

该指标用于统计ModelArts用户服务的GPU显存使用情况。

单位:百分比。

≥ 0%

ModelArts模型负载

1分钟

npu_util

NPU使用率

该指标用于统计ModelArts用户服务的NPU使用情况。

单位:百分比。

≥ 0%

ModelArts模型负载

1分钟

npu_mem_usage

NPU显存使用率

该指标用于统计ModelArts用户服务的NPU显存使用情况。

单位:百分比。

≥ 0%

ModelArts模型负载

1分钟

successfully_called_times

调用成功次数

统计ModelArts用户调用服务的成功次数。

单位:次/分钟。

≥Count/min

ModelArts模型负载

ModelArts在线服务

1分钟

failed_called_times

调用失败次数

统计ModelArts用户调用服务的失败次数。

单位:次/分钟。

≥Count/min

ModelArts模型负载

ModelArts在线服务

1分钟

total_called_times

调用总次数

统计ModelArts用户调用服务的次数。

单位:次/分钟。

≥Count/min

ModelArts模型负载

ModelArts在线服务

1分钟

disk_read_rate

磁盘读取速率

统计ModelArts用户服务的磁盘读取速率

单位:bit/min

≥bit/min

ModelArts模型负载

1分钟

disk_write_rate

磁盘写入速率

统计ModelArts用户服务的磁盘写入速率

单位:bit/min

≥bit/min

ModelArts模型负载

1分钟

send_bytes_rate

上行速率

统计ModelArts用户服务的

出方向网络流速。

单位:bit/min

≥bit/min

ModelArts模型负载

1分钟

recv_bytes_rate

下行速率

统计ModelArts用户服务的

入方向网络流速。

≥bit/min

ModelArts模型负载

1分钟

req_count_2xx

2xx响应次数

统计api接口2xx响应的次数

≥Count/min

ModelArts在线服务

1分钟

req_count_4xx

4xx异常次数

统计api接口返回4xx错误的次数

≥Count/min

ModelArts在线服务

1分钟

req_count_5xx

5xx异常次数

统计api接口返回5xx错误的次数

≥Count/min

ModelArts在线服务

1分钟

avg_latency

平均延迟毫秒数

统计api接口平均响应延时时间

≥ms

ModelArts在线服务

1分钟

对于有多个测量维度的测量对象,使用接口查询监控指标时,所有测量维度均为必选。

  • 查询单个监控指标时,多维度dim使用样例:dim.0=service_id,530cd6b0-86d7-4818-837f-935f6a27414d&dim.1="model_id,3773b058-5b4f-4366-9035-9bbd9964714a。
  • 批量查询监控指标时,多维度dim使用样例:

    "dimensions": [

    {

    "name": "service_id",

    "value": "530cd6b0-86d7-4818-837f-935f6a27414d"

    }

    {

    "name": "model_id",

    "value": "3773b058-5b4f-4366-9035-9bbd9964714a"

    }

    ]

表2 维度说明

Key

Value

service_id

在线服务ID。

model_id

模型负载ID。

设置告警规则

通过设置ModelArts在线服务和模型负载告警规则,用户可自定义监控目标与通知策略,及时了解ModelArts在线服务和模型负载状况,从而起到预警作用。

设置ModelArts服务和模型的告警规则包括设置告警规则名称、监控对象、监控指标、告警阈值、监控周期和是否发送通知等参数。本节介绍了设置ModelArts服务和模型告警规则的具体方法。

只有“运行中”的在线服务,支持对接CES监控。

前提条件:

  • 已创建ModelArts在线服务。
  • 已在云监控服务创建ModelArts监控服务。登录云监控服务控制台,在自定义监控页面,根据界面提示创建ModelArts监控服务。

设置告警规则有多种方式。您可以根据实际应用场景,选择设置告警规则的方式。

  • 对ModelArts服务设置告警规则
  • 对单个服务设置告警规则
  • 对模型版本设置告警规则
  • 对服务或模型版本的单个指标设置告警规则

方式一:对整个ModelArts服务设置告警规则

  1. 登录管理控制台。
  2. “服务列表”中选择管理与监管 > 云监控服务,进入“云监控服务”管理控制台。
  3. 在左侧导航栏,选择告警 > 告警规则页面,单击“创建告警规则”。
  4. 在“创建告警规则”页面,“资源类型”选择“ModelArts”,“维度”选择“服务”,“触发规则”选择“自定义创建”,设置告警策略,完成其他信息填写后,单击“立即创建”。

方式二:对单个服务设置告警规则

  1. 登录管理控制台。
  2. “服务列表”中选择管理与监管 > 云监控服务,进入“云监控服务”管理控制台。
  3. 在左侧导航栏,选择云服务监控 > ModelArts
  4. 选择需要添加告警规则的在线服务名称,单击操作列的“创建告警规则”
  5. “创建告警规则”界面,根据界面提示设置ModelArts在线服务和模型负载的告警规则。

方式三:对单个版本设置告警规则

  1. 登录管理控制台。
  2. “服务列表”中选择管理与监管 > 云监控服务,进入“云监控服务”管理控制台。
  3. 在左侧导航栏,选择云服务监控 > ModelArts
  4. 单击在线服务名称前面的小三角,展示模型版本列表,选择需要设置告警规则的模型版本,单击操作列的“创建告警规则”
  5. “创建告警规则”界面,根据界面提示设置模型负载的告警规则。

方式四:对服务或模型版本的单个指标设置告警规则

  1. 登录管理控制台。
  2. “服务列表”中选择管理与监管 > 云监控服务,进入“云监控服务”管理控制台。
  3. 在左侧导航栏,选择云服务监控 > ModelArts
  4. 单击在线服务名称或单击在线服务名称前面的小三角,展示模型版本列表,单击模型版本名称,查看告警规则详情。
  5. 在告警规则详情页,单击单个指标右上角的加号按钮,对服务或模型版本的单个指标设置告警规则。

查看监控指标

云服务平台提供的云监控,可以对ModelArts在线服务和模型负载运行状态进行日常监控。您可以通过管理控制台,直观地查看ModelArts在线服务和模型负载的各项监控指标。由于监控数据的获取与传输会花费一定时间,因此,云监控显示的是当前时间5~10分钟前的状态。如果您的在线服务刚创建完成,请等待5~10分钟后查看监控数据。

前提条件:

  • ModelArts在线服务正常运行。
  • 已在云监控页面设置告警规则,具体操作请参见设置告警规则
  • 在线服务已正常运行一段时间(约10分钟)。
  • 对于新创建的在线服务,需要等待一段时间,才能查看上报的监控数据和监控视图。
  • 故障、删除状态的在线服务,无法在云监控中查看其监控指标。当在线服务再次启动或恢复后,即可正常查看。

对接云监控之前,用户无法查看到未对接资源的监控数据。具体操作,请参见设置告警规则

  1. 登录管理控制台。
  2. “服务列表”中选择管理与监管 > 云监控服务,进入“云监控服务”管理控制台。
  3. 在左侧导航栏,选择云服务监控 > ModelArts
  4. 查看监控图表。

    • 查看在线服务监控图表:单击目标在线服务“操作”列的“查看监控指标”
    • 查看模型负载监控图标:单击目标在线服务左侧的,在下拉列表中选择模型负载“操作”列的“查看监控指标”

  5. 在监控区域,您可以通过选择时长,查看对应时间的监控数据。

    当前支持查看近1小时、近3小时和近12小时的监控数据,查看更长时间范围监控曲线,请在监控视图中单击进入大图模式查看。

相关文档