- 最新动态
- 功能总览
- 产品介绍
- 计费说明
- 快速入门
- AppStage使用前准备
- AI原生应用引擎用户指南
- 开发中心用户指南
-
运维中心用户指南
- 运维中心简介
- 运维中心使用前准备
- 运维中心使用流程
- 进入运维中心
- 接入资源
- 部署应用
- 监控资源和应用
- 管理已纳管资源
- 管理运行时资源
- 管理工单
- 运营中心用户指南
- 最佳实践
- 开发指南
- API参考
- SDK参考
-
常见问题
- 权限管理
-
AI原生应用引擎
- 我创建的微调数据集会被其他用户调用去训练他们的大模型吗?
- 模型微调任务一直在等待中是什么原因?
- 大模型微调需要的数据有要求吗?
- AI原生应用引擎支持所有数据集进行数据标注吗?
- AI原生应用引擎中预置了哪些提示语?
- AI原生应用引擎训练好后的模型如何获取?
- 模型调测时,无法选择模型服务商API是什么原因?
- 我接入的模型需要满足什么要求才能在创建Agent时作为思考模型?
- Agent问答的时候报错“很抱歉,我的系统似乎遇到了一些故障问题,暂时无法为您提供服务”
- 自接入的模型在模型调测的时候报错是什么原因?
- 开源模型怎么部署?
- 平台有没有预置模型?
- 思考模型和问答模型的区别
- 工作流中知识库节点、LLM节点都需要配置实例,实例的API Key填什么?
- 工作流中工具节点的实例如何配置?
- 如何获取Agent发布时所需的API Key?
- 如何保证Agent每次问答都调用知识库?
- 工作流的返回是json格式,但是大模型会进行总结,如何以json格式直接输出?
- 如何在工作流中定制逻辑实现特定任务,比如时间格式转换、数组对象的push等
- 资产中心的工具怎么使用?
- Code代码节点的输入输出参数如何与其他节点进行交互和传递?
- Agent问答的时候没有回答
- 发布Agent的时候提示套餐校验失败
- 一站式创建Agent时如何取消选择默认模型,更换为其他模型
- 按照标题切分的时候,分段长度是什么意思?
- 工作流已启用,为什么在创建Agent时仍然无法选用?
- 如何通过调用Agent API将变量传递到工作流?
- 开发中心
- 运维中心部署服务
-
运维中心监控服务
- 如何查看EAP详细日志?
- 删除告警任务失败
- 告警后触发知识编排任务提示alert_type不存在
- 创建CES指标采集报错
- 如何卸载虚拟机上安装的filebeat?
-
异常检测Judge定时任务失败
- KeyError
- TypeError: not supported between instances of 'str' and 'float'
- TypeError("Cannot index by location index with a non-integer key")
- judge长时间处于SUBMIT状态直至失败
- fail to load model json
- judge日志无法查看,提示get request error
- judge日志大小1KB,且不刷新日志内容
- PSQLException: ERROR: invalid input syntax for type numeric
- PSQLException: ERROR: syntax error at or near
- too much null size
- judge_data_size(in):0
- ERROR - fail to load
- canceling statement due to user request
- 保存异常检测告警配置时报错
- 运维中心弹性资源服务
- 运维中心弹性网络服务
- 运维中心主机管理服务
- 运维中心微服务平台
-
运维中心负载均衡
-
SLB同步异常相关问题
- SSL_do_handshake() failed
- test nginx: nginx: [emerg] host not found in upstream "后端服务器名称" in /.../server...conf:17 nginx: .../nginx.conf test failed [FAILED
- no "ssl_certificate" is defined for the "listen ... ssl""
- no such file or directory......./ssl/dummy.pem
- test nginx: nginx: [alert] mmap(MAP_ANON|MAP_SHARED, 524288000) failed (12: Cannot allocate memory) nginx: [alert] munmap(FFFFFFFFFFFFFFFF, 524288000) failed
- duplicate value "error" in /opt/huawei/openresty/nginx/.../xxx.conf:40
- SLB同步检查不一致
- SLB一直同步,心跳异常
-
SLB部署失败相关问题
- FATAL Can't get local ip
- /etc/rc.d/init.d/functions: No such file or directory
- nginx is stopped
- will_upgrade\old_version:1.4.7
- Need to modify /etc/hosts,but no permission.
- system param fs.nr_open should not less than fs.file-max”or“system param net.ipv4.ip_local_port_range should >=30000
- some permission denied files in /opt/huawei/openresty/nginx/conf/
- Permission denied: '/opt/huawei/release/lf_test/SLB/
- install_slb_failed for /opt/huawei/openresty exists not for slb
- not all conf included in vhosts or slb_conf
- watchdog still running
- job 28e7241e42904334b failed
- [Service proxy.apply_sudo._wrapped_f]: fail to operator sudo,message: send request fail, status code: 400, error: None, message: illegal param\",\"status\":-2}
- some html not in /opt/huawei/openresty/nginx/html
- cannot access /opt/huawei/openresty/nginx/conf/ssl/sample/resty-auto-ssl-fallback.pem.Permission denined
- fail to operator sudo, message: send request fail, status code: 400, task: control sudo permission, status: failed
- some certificate not in /opt/huawei/openresty/nginx/conf/ssl
- crontab -l \n+ echo 'Permission denied crontab'
- 资源间绑定服务不一致
-
SLB同步异常相关问题
- 运维中心数据库治理
- 运维中心访问凭据管理服务
- 运营中心
- 管理控制台用户指南(即将下线)
- 业务控制台用户指南(即将下线)
-
运行时引擎用户指南(即将下线)
- AppStage运行时引擎简介
- AppStage运行时引擎使用前准备
- 进入AppStage运行时引擎
- 通过微服务平台管理微服务及相关资源
- 配置运行时引擎负载均衡
- 管理Cloud Map中的服务资源
- 配置运行时引擎数据库治理
- 配置访问凭据管理服务
- 文档下载
- 通用参考
链接复制成功!
查看并处理告警
ServiceInsight为用户提供了一个对于虚机、容器、数据库等资源的立体化监控平台与链路式的处理定位平台。在用户云上业务出现异常时,能够快速接收到异常并作出反应,为后续的定位、定界提供依据,保证业务顺畅运行。
前提条件
操作步骤
- 进入AppStage运维中心。
- 在顶部导航栏选择服务。
- 单击
,选择“运维 > 监控服务(ServiceInsight)”。
- 选择左侧导航栏的“告警 > 告警列表”,进入告警列表页面查看告警,告警参数说明如表1所示。
如需确认告警、批量通知、处理告警、清除告警、屏蔽告警和创建事件单,需要获取服务运维岗位权限,权限申请操作请参见申请权限。
表1 告警列表参数说明 告警参数
参数说明
状态
只存在于当前告警和归档告警中,是处理告警的标志。有未确认、已确认、已通知三种状态,告警产生时默认是未确认状态,单击上方的“确认告警”、“批量通知”,可以让它进入已确认状态和已通知状态,该字段不会影响告警的处理流程属于是打标记的字段。
级别
告警上报时level字段代表级别,有提示、一般、严重和紧急四个等级,分别对应了上报时的notice、minor、major和critical。
操作
- 处理:为这条告警添加一条处理记录,可选的动作有三个,包括人工通知、处理过程和处理结果,对告警添加记录不会影响告警的流程。
单击告警操作列的“处理”,即可处理该告警,也可勾选多个告警,单击告警列表左上方的“批量处理”,处理多条告警。
- 屏蔽:屏蔽告警后该告警就不会展示在告警列表,可以在“屏蔽告警”页签查看。
单击告警操作列的“屏蔽”,即可屏蔽该告警,也可勾选多个告警,单击告警列表右上方的“屏蔽”,屏蔽多条告警。
- 创建事件单:可以通过告警直接生成事件单,创建后会在“事件单管理”页面生成一条待处理事件,需要设置处理人后才能提交。
- 清除:勾选告警,然后单击告警列表右上方的“清除告警”,即可清除已勾选告警。
告警上报的数据会根据产品ID、服务ID、level等信息生成一个唯一标识,该标识为告警的指纹信息,监控服务会依据指纹信息进行告警的判重。
当监控主机的指标数据满足统一告警定义中设置的阈值且数据的持续时间满足设置的持续时间时会上报告警,当指标数据恢复正常且持续一段时间后告警会自动消除。如果监控数据始终满足统一告警定义中设置的阈值时会认为第一次产生的告警问题始终存在,手动清除告警后不会再产生新的同类告警。
入库时间
告警经过处理后进入数据库表的时间。
发生时间
告警上报时start_timestamp字段所表示的时间。
持续时间
告警发生时间到当前时区时间为告警持续时间。
自动恢复状态
如果告警和自动恢复的规则相匹配,会异步调用EAP执行告警的恢复。
IP
发生告警的IP。
告警定义ID
创建告警定义规则时系统自动生成的ID。
- 处理:为这条告警添加一条处理记录,可选的动作有三个,包括人工通知、处理过程和处理结果,对告警添加记录不会影响告警的流程。
告警类型说明
告警在列表中总共有五种状态,实际上告警本身只有告警中和已解决两种状态,根据这两种状态在系统中不同的标记又细分为五种状态,具体告警类型如表2所示。
告警类型 |
告警说明 |
---|---|
当前告警 |
告警进入系统后如果没有被屏蔽规则屏蔽就会进入该页签,表示当前仍然是告警中状态且未被清除和屏蔽的告警。 |
屏蔽告警 |
告警进入系统后被设置的屏蔽规则自动屏蔽或者人为在界面上手动单击屏蔽的告警。屏蔽的告警分为两种,一种是有具体屏蔽时间的,到了屏蔽时间结束后会作为一条新的告警再次出现在当前告警的列表中,一种是没有屏蔽时间的,将会被永久屏蔽。 |
历史告警 |
历史告警都是已解决的告警,让告警进入已解决的状态的方式有两种,一种是上报的告警已解决,这条告警就会被清除进入历史告警,或者是在界面上直接清除告警也会进入历史告警。 |
未确认已恢复告警 |
系统接收到已解决或自动清除的告警,非界面操作影响的告警。 |
归档告警 |
历史告警中,告警级别在严重和紧急的告警且是已解决状态的,每个小时会被定时任务扫描到转移至归档告警。 |
查询告警参数说明
可以用不同参数对告警进行查询,参数说明如表3所示。
告警参数 |
参数说明 |
---|---|
应用/服务 |
告警所属的服务,不选则默认展示用户拥有权限下的所有告警。 |
告警级别 |
告警上报时所带的level字段。 |
显示模式 |
显示模式分为三种,告警收敛、原始告警和仅收敛告警。默认显示告警收敛。
|
状态 |
支持对未确认、已确认、已通知、处理中和处理完成的告警进行查询。 |
语音呼叫状态 |
告警当前的语音呼叫的状态。 |
告警类型 |
上报的告警会显示类型信息,可根据类型筛选查看告警。 |
入库时间 |
告警进入系统的时间。 |
区域 |
告警涉及的区域。 |
告警单发 |
选择是否查看属于告警单发的告警。 |
无处理人 |
选择无处理人的告警。 |