更新时间:2025-12-15 GMT+08:00
分享

自定义监控指标

在训练过程中,loss值,吞吐量等非系统资源指标也需要监控,此时可以使用AOM提供的相关接口来采集非系统资源指标。

自定义指标采集方式如下:

接入SDK

核心代码示例:

    listValuesBody = [         
         #下面填上对应的指标名称、类型、单位、数值,比如step_time、loss值等         
         ValueData(             
            metric_name="step_time", #监控指标名称,例如step_time            
            type="float",  #指标的数据类型,取值范围只能是"int"或"float"。            
            unit="ms",     #数据的单位。长度不超过32个字符,此处举例为ms            
            value=135.572  #指标数据的值。取值范围有效的数值类型。最小值0        
         ),         
         ValueData(             
            metric_name="loss",  #监控指标名称,            
            type="float",             
            value=0.6932        
         )    
         ]
    listDimensionsMetric = [         
        #下面填上想查看的指标维度,比如线程、host等等        
        Dimension2(             
            name="cluster_name",#此处仅为举例示意,请替换为实际需要查看的指标维度            
            value="fab2c5cf438b4f0c851fdcdf"# 此处仅为举例示意,请替换为实际参数值        )  
        ]
    // 进行请求发送
    response = client.add_metric_data(request)

接入SDK的详细代码见文档:使用SDK上报自定义指标到AOM

验证自定义指标是否接入成功: 监控指标验证

相关指标的告警阈值由客户自行决定,告警配置文档

相关文档