- 最新动态
- 功能总览
- 产品介绍
- 计费说明
- 快速入门
- AppStage使用前准备
- AI原生应用引擎用户指南
- 开发中心用户指南
-
运维中心用户指南
- 运维中心简介
- 运维中心使用前准备
- 运维中心使用流程
- 进入运维中心
- 接入资源
- 部署应用
- 监控资源和应用
- 管理已纳管资源
- 管理运行时资源
- 管理工单
- 运营中心用户指南
- 最佳实践
- 开发指南
- API参考
- SDK参考
-
常见问题
- 权限管理
-
AI原生应用引擎
- 我创建的微调数据集会被其他用户调用去训练他们的大模型吗?
- 模型微调任务一直在等待中是什么原因?
- 大模型微调需要的数据有要求吗?
- AI原生应用引擎支持所有数据集进行数据标注吗?
- AI原生应用引擎中预置了哪些提示语?
- AI原生应用引擎训练好后的模型如何获取?
- 模型调测时,无法选择模型服务商API是什么原因?
- 我接入的模型需要满足什么要求才能在创建Agent时作为思考模型?
- Agent问答的时候报错“很抱歉,我的系统似乎遇到了一些故障问题,暂时无法为您提供服务”
- 自接入的模型在模型调测的时候报错是什么原因?
- 开源模型怎么部署?
- 平台有没有预置模型?
- 思考模型和问答模型的区别
- 工作流中知识库节点、LLM节点都需要配置实例,实例的API Key填什么?
- 工作流中工具节点的实例如何配置?
- 如何获取Agent发布时所需的API Key?
- 如何保证Agent每次问答都调用知识库?
- 工作流的返回是json格式,但是大模型会进行总结,如何以json格式直接输出?
- 如何在工作流中定制逻辑实现特定任务,比如时间格式转换、数组对象的push等
- 资产中心的工具怎么使用?
- Code代码节点的输入输出参数如何与其他节点进行交互和传递?
- Agent问答的时候没有回答
- 发布Agent的时候提示套餐校验失败
- 一站式创建Agent时如何取消选择默认模型,更换为其他模型
- 按照标题切分的时候,分段长度是什么意思?
- 工作流已启用,为什么在创建Agent时仍然无法选用?
- 如何通过调用Agent API将变量传递到工作流?
- 开发中心
- 运维中心部署服务
-
运维中心监控服务
- 如何查看EAP详细日志?
- 删除告警任务失败
- 告警后触发知识编排任务提示alert_type不存在
- 创建CES指标采集报错
- 如何卸载虚拟机上安装的filebeat?
-
异常检测Judge定时任务失败
- KeyError
- TypeError: not supported between instances of 'str' and 'float'
- TypeError("Cannot index by location index with a non-integer key")
- judge长时间处于SUBMIT状态直至失败
- fail to load model json
- judge日志无法查看,提示get request error
- judge日志大小1KB,且不刷新日志内容
- PSQLException: ERROR: invalid input syntax for type numeric
- PSQLException: ERROR: syntax error at or near
- too much null size
- judge_data_size(in):0
- ERROR - fail to load
- canceling statement due to user request
- 保存异常检测告警配置时报错
- 运维中心弹性资源服务
- 运维中心弹性网络服务
- 运维中心主机管理服务
- 运维中心微服务平台
-
运维中心负载均衡
-
SLB同步异常相关问题
- SSL_do_handshake() failed
- test nginx: nginx: [emerg] host not found in upstream "后端服务器名称" in /.../server...conf:17 nginx: .../nginx.conf test failed [FAILED
- no "ssl_certificate" is defined for the "listen ... ssl""
- no such file or directory......./ssl/dummy.pem
- test nginx: nginx: [alert] mmap(MAP_ANON|MAP_SHARED, 524288000) failed (12: Cannot allocate memory) nginx: [alert] munmap(FFFFFFFFFFFFFFFF, 524288000) failed
- duplicate value "error" in /opt/huawei/openresty/nginx/.../xxx.conf:40
- SLB同步检查不一致
- SLB一直同步,心跳异常
-
SLB部署失败相关问题
- FATAL Can't get local ip
- /etc/rc.d/init.d/functions: No such file or directory
- nginx is stopped
- will_upgrade\old_version:1.4.7
- Need to modify /etc/hosts,but no permission.
- system param fs.nr_open should not less than fs.file-max”or“system param net.ipv4.ip_local_port_range should >=30000
- some permission denied files in /opt/huawei/openresty/nginx/conf/
- Permission denied: '/opt/huawei/release/lf_test/SLB/
- install_slb_failed for /opt/huawei/openresty exists not for slb
- not all conf included in vhosts or slb_conf
- watchdog still running
- job 28e7241e42904334b failed
- [Service proxy.apply_sudo._wrapped_f]: fail to operator sudo,message: send request fail, status code: 400, error: None, message: illegal param\",\"status\":-2}
- some html not in /opt/huawei/openresty/nginx/html
- cannot access /opt/huawei/openresty/nginx/conf/ssl/sample/resty-auto-ssl-fallback.pem.Permission denined
- fail to operator sudo, message: send request fail, status code: 400, task: control sudo permission, status: failed
- some certificate not in /opt/huawei/openresty/nginx/conf/ssl
- crontab -l \n+ echo 'Permission denied crontab'
- 资源间绑定服务不一致
-
SLB同步异常相关问题
- 运维中心数据库治理
- 运维中心访问凭据管理服务
- 运营中心
- 管理控制台用户指南(即将下线)
- 业务控制台用户指南(即将下线)
-
运行时引擎用户指南(即将下线)
- AppStage运行时引擎简介
- AppStage运行时引擎使用前准备
- 进入AppStage运行时引擎
- 通过微服务平台管理微服务及相关资源
- 配置运行时引擎负载均衡
- 管理Cloud Map中的服务资源
- 配置运行时引擎数据库治理
- 配置访问凭据管理服务
- 文档下载
- 通用参考
链接复制成功!
CES指标接入
云监控服务CES可以收集云服务内置监控指标的数据,可以通过监控这些指标来跟踪对应云服务状态。AppStage运维中心支持将CES收集的监控指标数据采集到运维中心监控服务中进行管理,可以参考支持监控的服务列表查看CES当前已支持的监控指标。
选择服务后首次使用监控服务,会初始化数据,生成一个Kafka的Topic,采集到的指标数据会保存在该Topic中。在CES页面的“模板”页签,单击“一键生成”,会自动创建ClickHouse表、导流任务及指标,可以使用指标开发业务报表,具体操作请参见接入CES指标并生成业务报表。
- 创建采集指标模板:根据模板选择的实例和指标采集对应的CES数据。
- 创建自定义采集指标:支持创建自定义采集指标,可以指定账号区域下具体的监控指标。
- 补数据:如果发现实例的指标数据出现漏采的情况,可以使用补数据功能将漏采的指标数据重新采集。因为CES的指标只能保留2天,所以支持采集近2天内的数据。
- 查看系统预置模板:初始化数据时,会根据账号下已有的数据库资源,生成对应的系统预置模板,并按照这些模板采集数据库监控指标,保存在自动生成的Topic中,您可以查看系统预置模板。
前提条件
- 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。
- 已购买并配置相应的华为云资源,如ECS、VPN、OBS等。
创建采集指标模板
- 进入AppStage运维中心。
- 在顶部导航栏选择服务。
- 单击
,选择“运维 > 监控服务(ServiceInsight)”
- 选择左侧导航栏的“运维数据开发 > 数据开发”,进入“数据开发”页面。
- 单击“数据管理 > CES”,进入CES页面,默认显示“模板”页签。
- 单击“创建”。
- 选择实例,勾选需要采集指标数据的云服务实例,单击
,然后单击“下一步”,如图1所示。
- 选择指标,勾选需要采集的指标,单击
,然后单击“确定”。
- 创建完成后,会根据所选实例及指标生成对应的模板数据,显示在模板列表中。
- 如果生成的模板数量与勾选的指标数量不一致,请确认所选指标是否已购买对应云服务实例并完成相应配置,具体请参见对应的云服务。
创建自定义采集指标
- 进入AppStage运维中心。
- 在顶部导航栏选择服务。
- 单击
,选择“运维 > 监控服务(ServiceInsight)”。
- 选择左侧导航栏的“运维数据开发 > 数据开发”,进入“数据开发”页面。
- 单击“数据管理 > CES”,进入CES页面,默认显示“模板”页签。
- 单击“自定义”,切换至“自定义”页签。
- 单击“创建”,进入“自定义创建”页面。
- 配置自定义采集指标参数。
- 可以单击列表上方的“添加”,添加多条指标数据,一次最多添加500条,参数说明如表1所示。
- 可以单击列表上方的“点击下载模板”,下载导入模板,在表格中完善指标数据,参数说明如表1所示,然后单击“导入”,批量导入指标数据,一次最多导入500条,同时导入文件大小不能超过5MB。
表1 自定义采集指标参数说明 参数名称
参数说明
账号
需要采集指标的资源所属的账号。
账号需要关联服务,可以在“服务环境配置 > 服务关联”页面查看已关联账号或者关联新的账号。
区域
需要采集指标的资源所在的区域。
如果选择不到对应区域,可以在“服务环境配置 > 账号列表”页面,单击对应账号后的“编辑”,然后单击“确定”,自动刷新所选账号下的区域信息。
命名空间
输入需要采集指标所属的命名空间,查看方式如查看监控指标数据所示。
指标名称
需要采集的指标,查看方式如查看监控指标数据所示。
维度
需要采集的指标维度,查看方式如查看监控指标数据所示。
单个添加时可以单击
,开始编辑维度,输入维度的名称(Key)和值(Value),维度最多只能添加三条,编辑完成后单击“确定”。
- (可选)单击“操作”列的“测试”,可测试对应行的指标数据是否配置正确,如不正确可以单击“操作”列的“删除”,删除对应行指标数据。
- 配置完成后单击“确定”。
补数据
- 进入AppStage运维中心。
- 在顶部导航栏选择服务。
- 单击
,选择“运维 > 监控服务(ServiceInsight)”
- 选择左侧导航栏的“运维数据开发 > 数据开发”,进入“数据开发”页面。
- 单击“数据管理 > CES”,进入CES页面,默认显示“模板”页签。
或者单击“自定义”,切换至“自定义”页签。
- 单击需要补数据的指标所在行“操作”列的“补数据”。
- 选择需要补数据的时间,单击“确定”。
查看系统预置模板
- 进入AppStage运维中心。
- 在顶部导航栏选择服务。
- 单击
,选择“运维 > 监控服务(ServiceInsight)”
- 选择左侧导航栏的“运维数据开发 > 数据开发”,进入“数据开发”页面。
- 单击“数据管理 > CES”,进入CES页面,默认显示“模板”页签。
- 单击“系统预置”,切换至“系统预置”页签。
在该页签下查看已生成的系统预置模板。
编辑Topic获取数据结构
- 进入AppStage运维中心。
- 在顶部导航栏选择服务。
- 单击
,选择“运维 > 监控服务(ServiceInsight)”
- 选择左侧导航栏的“运维数据开发 > 数据开发”,进入“数据开发”页面。
- 单击“数据管理 > Kafka”,进入Kafka页面。
- 在列表中找到保存指标数据的Topic,单击该Topic所在行的“编辑”。
- 在编辑页面,数据格式定义中单击“从最新位置获取数据格式”或“从最早位置获取数据格式”,如图2所示。可以获取到数据结构,数据字段说明如表2所示,然后单击“确定”。
表2 CES数据字段说明 字段名
字段说明
dimensions
采集指标的维度信息
instance
实例名称
instanceId
实例ID
metricName
指标名称
metricValue
指标值
namespace
命名空间
nodeId
节点ID
nodeName
节点名称
serviceId
AppStage的服务ID
timestamp
时间戳
unit
指标单位
dim1_key、dim1_value
dim2_key、dim2_value
dim3_key、dim3_value
dim4_key、dim4_value
dim5_key、dim5_value
预留5组键值对,用来存储采集到的多维度的数据
查看监控指标数据
以采集弹性云服务器的监控指标为例,查看弹性云服务器对应的命名空间、指标ID、维度的Key和Value。
- 在支持监控的服务列表页面查看对应的监控指标参考文档。
- 在参考文档中查看命名空间,弹性云服务器对应的命名空间为“SYS.ECS”。
- 查看监控指标的指标ID和测量对象(维度),例如监控指标CPU使用率的指标ID为“cpu_util”,测量对象为“云服务器”。
- 查看维度的Key和Value,云服务器维度的Key和Value分别为instance_id和云服务器ID。