更新时间:2024-08-14 GMT+08:00

Notebook cache盘告警上报

创建Notebook时,可以根据业务数据量的大小选择CPU、GPU或者Ascend资源,对GPU或Ascend类型的资源,ModelArts会挂载硬盘至“/cache”目录,用户可以使用此目录来储存临时文件。

当前开发环境的cache盘使用时,没有容量告警,在使用时很容易超过限制,并直接重启Notebook实例。重启后多种配置重置,会导致用户数据丢弃,环境丢失,造成很不好的使用体验。因此需要提供cache盘使用情况的监控和告警,并将数据上报至AOM平台。

配置流程

  1. 填写告警基本信息
  2. 设置告警规则
    1. 监控对象指标配置
    2. 告警触发条件设置
  3. 告警通知设置
    1. 创建主题、设置主题策略、订阅主题
    2. 创建告警行动规则
    3. 选择已创建的行动规则

告警上报配置方法

  1. 登录AOM控制台。
  2. 单击“告警 > 告警规则”,在“告警规则”界面,单击“添加告警”
  3. 填写告警基本信息。

  4. 设置告警规则。

    “规则类型”选择“阈值规则”

    “监控对象”:选择“选择资源对象”。单击选择资源对象,弹出新窗口。

    • 添加方式:选择“按指标维度添加”
    • 指标名称:选择“全量指标”,搜索需要监控的cache指标名称然后选中。例如:ma_container_notebook_cache_dir_size_bytes(cache目录的总大小)、ma_container_notebook_cache_dir_util(cache目录的利用率)
    • 指标维度:根据实际需求选择相应的指标维度。例如service_id:xxx,然后单击“确定”

    监控对象设置完成后,选择“统计方式”“统计周期”

    “告警条件设置”:触发条件根据实际需求设置。

    图1 监控对象指标设置
    图2 设置指标统计方式
    图3 告警条件设置

  5. 设置告警通知,单击“立即创建”

    “告警方式”:选择“直接告警”

    “行动规则”:开启开关,选择已创建的行动规则。如果现有列表中的告警行动规则无法满足需要,可单击“新建告警行动规则”添加,详细操作请参考创建告警行动规则

    “告警恢复通知”:开启开关

    图4 设置告警通知

    先在SMN创建一个主题,用于配置告警通知规则。

    • 创建主题
      1. 进入“消息通知服务”控制台,单击“主题管理 > 主题”,进入“主题”页面。
      2. 单击“创建主题”填写主题名称,选择企业项目后,单击确定即可创建一个主题。
      3. 单击主题名称“操作”列的“更多 > 设置主题策略”

        选择APM,即允许AOM的告警触发SMN服务。

        图5 设置主题策略
      4. 单击主题名称“操作”列的“添加订阅”。订阅成功后,一旦满足告警条件,那么就会收到通知。

        选择合适的协议,如邮件,短信等,并填写终端,如邮件地址,手机号等。单击确认。

        此时订阅总数中会出现一条记录,但是处于未确认的状态。

        收到邮件后单击“订阅确认”

        此时该订阅记录将处于已确认的状态。

    • 创建告警行动规则

      行动规则即为告警触发时,AOM以怎样的方式来告知用户。启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。

      根据界面提示填写行动规则名称,选择行动规则类型,选择上一步创建的主题,选择消息模板,然后单击“确定”

      图6 新建告警行动规则

在之前打开的“创建告警规则”页面的告警通知区域“行动规则”选择新创建的告警行动规则,单击“立即创建”

至此,整个告警流程配置完成,一旦满足告警条件,那么就会收到邮件通知。