在云监控平台查看在线服务性能指标

监控指标的命名空间

SYS.ModelArts

ModelArts支持的监控指标

为使用户更好地掌握自己的ModelArts在线服务和对应模型负载的运行状态，云服务平台提供了云监控。您可以使用该服务监控您的ModelArts在线服务和对应模型负载，执行自动实时监控、告警和通知操作，帮助您更好地了解服务和模型的各项性能指标。

表1 ModelArts支持的监控指标
指标ID	指标名称	指标含义	取值范围	单位	进制	测量对象	监控周期
cpu_usage	CPU使用率	该指标用于统计ModelArts用户服务的CPU使用率。单位：百分比。	≥ 0%	%	-	ModelArts模型负载	1分钟
mem_usage	内存使用率	该指标用于统计ModelArts用户服务的内存使用率。单位：百分比。	≥ 0%	%	-	ModelArts模型负载	1分钟
gpu_util	GPU使用率	该指标用于统计ModelArts用户服务的GPU使用情况。单位：百分比。	≥ 0%	%	-	ModelArts模型负载	1分钟
gpu_mem_usage	GPU显存使用率	该指标用于统计ModelArts用户服务的GPU显存使用情况。单位：百分比。	≥ 0%	%	-	ModelArts模型负载	1分钟
npu_util	NPU使用率	该指标用于统计ModelArts用户服务的NPU使用情况。单位：百分比。	≥ 0%	%	-	ModelArts模型负载	1分钟
npu_mem_usage	NPU显存使用率	该指标用于统计ModelArts用户服务的NPU显存使用情况。单位：百分比。	≥ 0%	%	-	ModelArts模型负载	1分钟
successfully_called_times	调用成功次数	统计ModelArts用户调用服务的成功次数。单位：次/分钟。	≥Count/min	次/分钟	-	ModelArts模型负载 ModelArts在线服务	1分钟
failed_called_times	调用失败次数	统计ModelArts用户调用服务的失败次数。单位：次/分钟。	≥Count/min	次/分钟	-	ModelArts模型负载 ModelArts在线服务	1分钟
total_called_times	调用总次数	统计ModelArts用户调用服务的次数。单位：次/分钟。	≥Count/min	次/分钟	-	ModelArts模型负载 ModelArts在线服务	1分钟
disk_read_rate	磁盘读取速率	统计ModelArts用户服务的磁盘读取速率。单位：bit/min	≥bit/min	bit/min	-	ModelArts模型负载	1分钟
disk_write_rate	磁盘写入速率	统计ModelArts用户服务的磁盘写入速率。单位：bit/min	≥bit/min	bit/min	-	ModelArts模型负载	1分钟
send_bytes_rate	上行速率	统计ModelArts用户服务的出方向网络流速。单位：bit/min	≥bit/min	bit/min	-	ModelArts模型负载	1分钟
recv_bytes_rate	下行速率	统计ModelArts用户服务的入方向网络流速。	≥bit/min	bit/min	-	ModelArts模型负载	1分钟
req_count_2xx	2xx响应次数	统计API接口2xx响应的次数。	≥Count/min	次/分钟	-	ModelArts在线服务	1分钟
req_count_4xx	4xx异常次数	统计API接口返回4xx错误的次数。	≥Count/min	次/分钟	-	ModelArts在线服务	1分钟
req_count_5xx	5xx异常次数	统计API接口返回5xx错误的次数。	≥Count/min	次/分钟	-	ModelArts在线服务	1分钟
avg_latency	平均延迟毫秒数	统计API接口平均响应延时时间。	≥ms	ms	-	ModelArts在线服务	1分钟
tp_99	TP99	上1分钟内，统计该请求每次响应所消耗的时间，并将这些时间按从小到大的顺序进行排序，取第99%的值作为TP99的值。	≥ms	ms	-	ModelArts在线服务	1分钟
tp_999	TP99.9	上1分钟内，统计该请求每次响应所消耗的时间，并将这些时间按从小到大的顺序进行排序，取第99.9%的值作为TP99.9的值。	≥ms	ms	-	ModelArts在线服务	1分钟
对于有多个测量维度的测量对象，使用接口查询监控指标时，所有测量维度均为必选。查询单个监控指标时，多维度dim使用样例：dim.0=service_id,530cd6b0-86d7-4818-837f-935f6a27414d&dim.1="model_id,3773b058-5b4f-4366-9035-9bbd9964714a。批量查询监控指标时，多维度dim使用样例： "dimensions": [ { "name": "service_id", "value": "530cd6b0-86d7-4818-837f-935f6a27414d" } { "name": "model_id", "value": "3773b058-5b4f-4366-9035-9bbd9964714a" } ]

表2 维度说明
Key	Value
service_id	在线服务ID。
model_id	模型负载ID。

设置告警规则

通过设置ModelArts在线服务和模型负载告警规则，用户可自定义监控目标与通知策略，及时了解ModelArts在线服务和模型负载状况，从而起到预警作用。

设置ModelArts服务和模型的告警规则包括设置告警规则名称、监控对象、监控指标、告警阈值、监控周期和是否发送通知等参数。本节介绍了设置ModelArts服务和模型告警规则的具体方法。

只有“运行中”的在线服务，支持对接CES监控。

前提条件：

已创建ModelArts在线服务。
已在云监控服务创建ModelArts监控服务。登录云监控服务控制台，在云监控服务控制台“自定义监控”页面，根据界面提示创建ModelArts监控服务。

设置告警规则有多种方式。您可以根据实际应用场景，选择设置告警规则的方式。

对ModelArts服务设置告警规则
对单个服务设置告警规则
对模型版本设置告警规则
对服务或模型版本的单个指标设置告警规则

方式一：对整个ModelArts服务设置告警规则

登录云监控服务控制台，在云监控服务控制台的左侧导航栏，选择“告警 > 告警规则”页面，单击“创建告警规则”。
在“创建告警规则”页面，“资源类型”选择“ModelArts”，“维度”选择“服务”，“触发规则”选择“自定义创建”，设置告警策略，完成其他信息填写后，单击“立即创建”。

方式二：对单个服务设置告警规则

登录云监控服务控制台，在云监控服务控制台的左侧导航栏，选择“云服务监控 > ModelArts”。
选择需要添加告警规则的在线服务名称，单击操作列的“创建告警规则”。
在“创建告警规则”界面，根据界面提示设置ModelArts在线服务和模型负载的告警规则。

方式三：对单个版本设置告警规则

登录云监控服务控制台，在云监控服务控制台的左侧导航栏，选择“云服务监控 > ModelArts”。
单击在线服务名称前面的小三角，展示模型版本列表，选择需要设置告警规则的模型版本，单击操作列的“创建告警规则”。
在“创建告警规则”界面，根据界面提示设置模型负载的告警规则。

方式四：对服务或模型版本的单个指标设置告警规则

登录云监控服务控制台，在云监控服务控制台的左侧导航栏，选择“云服务监控 > ModelArts”。
单击在线服务名称或单击在线服务名称前面的小三角，展示模型版本列表，单击模型版本名称，查看告警规则详情。
在告警规则详情页，单击单个指标右上角的加号按钮，对服务或模型版本的单个指标设置告警规则。

查看监控指标

云服务平台提供的云监控，可以对ModelArts在线服务和模型负载运行状态进行日常监控。您可以通过管理控制台，直观地查看ModelArts在线服务和模型负载的各项监控指标。由于监控数据的获取与传输会花费一定时间，因此，云监控显示的是当前时间5～10分钟前的状态。如果您的在线服务刚创建完成，请等待5～10分钟后查看监控数据。

前提条件：

ModelArts在线服务正常运行。

已在云监控页面设置告警规则，具体操作请参见设置告警规则。
在线服务已正常运行一段时间（约10分钟）。
对于新创建的在线服务，需要等待一段时间，才能查看上报的监控数据和监控视图。

故障、删除状态的在线服务，无法在云监控中查看其监控指标。当在线服务再次启动或恢复后，即可正常查看。

对接云监控之前，用户无法查看到未对接资源的监控数据。具体操作，请参见设置告警规则。

登录云监控服务控制台，在云监控服务控制台的左侧导航栏，选择“云服务监控 > ModelArts”。
查看监控图表。
- 查看在线服务监控图表：单击目标在线服务“操作”列的“查看监控指标”。
- 查看模型负载监控图标：单击目标在线服务左侧的，在下拉列表中选择模型负载“操作”列的“查看监控指标”。
在监控区域，您可以通过选择时长，查看对应时间的监控数据。

当前支持查看近1小时、近3小时和近12小时的监控数据，查看更长时间范围监控曲线，请在监控视图中单击进入大图模式查看。