Notebook cache盘告警上报
创建Notebook时,可以根据业务数据量的大小选择CPU、GPU或者Ascend资源,对GPU或Ascend类型的资源,ModelArts会挂载硬盘至“/cache”目录,用户可以使用此目录来储存临时文件。
当前开发环境的cache盘使用时,没有容量告警,在使用时很容易超过限制,并直接重启Notebook实例。重启后多种配置重置,会导致用户数据丢弃,环境丢失,造成很不好的使用体验。因此需要提供cache盘使用情况的监控和告警,并将数据上报至AOM平台。
告警上报配置方法
- 登录AOM控制台。
- 单击“告警 > 告警规则”,在“告警规则”界面,单击“添加告警”。
- 填写告警基本信息。
- 设置告警规则。
“监控对象”:选择“选择资源对象”。单击选择资源对象,弹出新窗口。
- 添加方式:选择“按指标维度添加”。
- 指标名称:选择“全量指标”,搜索需要监控的cache指标名称然后选中。例如:ma_container_notebook_cache_dir_size_bytes(cache目录的总大小)、ma_container_notebook_cache_dir_util(cache目录的利用率)
- 指标维度:根据实际需求选择相应的指标维度。例如service_id:xxx,然后单击“确定”。
监控对象设置完成后,选择“统计方式”和“统计周期”。
“告警条件设置”:触发条件根据实际需求设置。
图1 监控对象指标设置
图2 设置指标统计方式
图3 告警条件设置
- 设置告警通知,单击“立即创建”。
“告警方式”:选择“直接告警”
“行动规则”:开启开关,选择已创建的行动规则。如果现有列表中的告警行动规则无法满足需要,可单击“新建告警行动规则”添加,详细操作请参考创建告警行动规则。
“告警恢复通知”:开启开关
先在SMN创建一个主题,用于配置告警通知规则。
- 创建主题
- 进入“消息通知服务”控制台,单击“主题管理 > 主题”,进入“主题”页面。
- 单击“创建主题”填写主题名称,选择企业项目后,单击确定即可创建一个主题。
- 单击主题名称“操作”列的“更多 > 设置主题策略”。
选择APM,即允许AOM的告警触发SMN服务。
图5 设置主题策略
- 单击主题名称“操作”列的“添加订阅”。订阅成功后,一旦满足告警条件,那么就会收到通知。
选择合适的协议,如邮件,短信等,并填写终端,如邮件地址,手机号等。单击确认。
此时订阅总数中会出现一条记录,但是处于未确认的状态。
收到邮件后单击“订阅确认”。
此时该订阅记录将处于已确认的状态。
- 创建告警行动规则
行动规则即为告警触发时,AOM以怎样的方式来告知用户。启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。
根据界面提示填写行动规则名称,选择行动规则类型,选择上一步创建的主题,选择消息模板,然后单击“确定”。
图6 新建告警行动规则
- 创建主题
在之前打开的“创建告警规则”页面的告警通知区域,“行动规则”选择新创建的告警行动规则,单击“立即创建”。
至此,整个告警流程配置完成,一旦满足告警条件,那么就会收到邮件通知。