- 最新动态
- 功能总览
- 产品介绍
- 计费说明
- 快速入门
- AppStage使用前准备
- AI原生应用引擎用户指南
- 开发中心用户指南
-
运维中心用户指南
- 运维中心简介
- 运维中心使用前准备
- 运维中心使用流程
- 进入运维中心
- 接入资源
- 部署应用
- 监控资源和应用
- 管理已纳管资源
- 管理运行时资源
- 管理工单
- 运营中心用户指南
- 最佳实践
- 开发指南
- API参考
- SDK参考
-
常见问题
- 权限管理
-
AI原生应用引擎
- 我创建的微调数据集会被其他用户调用去训练他们的大模型吗?
- 模型微调任务一直在等待中是什么原因?
- 大模型微调需要的数据有要求吗?
- AI原生应用引擎支持所有数据集进行数据标注吗?
- AI原生应用引擎中预置了哪些提示语?
- AI原生应用引擎训练好后的模型如何获取?
- 模型调测时,无法选择模型服务商API是什么原因?
- 我接入的模型需要满足什么要求才能在创建Agent时作为思考模型?
- Agent问答的时候报错“很抱歉,我的系统似乎遇到了一些故障问题,暂时无法为您提供服务”
- 自接入的模型在模型调测的时候报错是什么原因?
- 开源模型怎么部署?
- 平台有没有预置模型?
- 思考模型和问答模型的区别
- 工作流中知识库节点、LLM节点都需要配置实例,实例的API Key填什么?
- 工作流中工具节点的实例如何配置?
- 如何获取Agent发布时所需的API Key?
- 如何保证Agent每次问答都调用知识库?
- 工作流的返回是json格式,但是大模型会进行总结,如何以json格式直接输出?
- 如何在工作流中定制逻辑实现特定任务,比如时间格式转换、数组对象的push等
- 资产中心的工具怎么使用?
- Code代码节点的输入输出参数如何与其他节点进行交互和传递?
- Agent问答的时候没有回答
- 发布Agent的时候提示套餐校验失败
- 一站式创建Agent时如何取消选择默认模型,更换为其他模型
- 按照标题切分的时候,分段长度是什么意思?
- 工作流已启用,为什么在创建Agent时仍然无法选用?
- 如何通过调用Agent API将变量传递到工作流?
- 开发中心
- 运维中心部署服务
-
运维中心监控服务
- 如何查看EAP详细日志?
- 删除告警任务失败
- 告警后触发知识编排任务提示alert_type不存在
- 创建CES指标采集报错
- 如何卸载虚拟机上安装的filebeat?
-
异常检测Judge定时任务失败
- KeyError
- TypeError: not supported between instances of 'str' and 'float'
- TypeError("Cannot index by location index with a non-integer key")
- judge长时间处于SUBMIT状态直至失败
- fail to load model json
- judge日志无法查看,提示get request error
- judge日志大小1KB,且不刷新日志内容
- PSQLException: ERROR: invalid input syntax for type numeric
- PSQLException: ERROR: syntax error at or near
- too much null size
- judge_data_size(in):0
- ERROR - fail to load
- canceling statement due to user request
- 保存异常检测告警配置时报错
- 运维中心弹性资源服务
- 运维中心弹性网络服务
- 运维中心主机管理服务
- 运维中心微服务平台
-
运维中心负载均衡
-
SLB同步异常相关问题
- SSL_do_handshake() failed
- test nginx: nginx: [emerg] host not found in upstream "后端服务器名称" in /.../server...conf:17 nginx: .../nginx.conf test failed [FAILED
- no "ssl_certificate" is defined for the "listen ... ssl""
- no such file or directory......./ssl/dummy.pem
- test nginx: nginx: [alert] mmap(MAP_ANON|MAP_SHARED, 524288000) failed (12: Cannot allocate memory) nginx: [alert] munmap(FFFFFFFFFFFFFFFF, 524288000) failed
- duplicate value "error" in /opt/huawei/openresty/nginx/.../xxx.conf:40
- SLB同步检查不一致
- SLB一直同步,心跳异常
-
SLB部署失败相关问题
- FATAL Can't get local ip
- /etc/rc.d/init.d/functions: No such file or directory
- nginx is stopped
- will_upgrade\old_version:1.4.7
- Need to modify /etc/hosts,but no permission.
- system param fs.nr_open should not less than fs.file-max”or“system param net.ipv4.ip_local_port_range should >=30000
- some permission denied files in /opt/huawei/openresty/nginx/conf/
- Permission denied: '/opt/huawei/release/lf_test/SLB/
- install_slb_failed for /opt/huawei/openresty exists not for slb
- not all conf included in vhosts or slb_conf
- watchdog still running
- job 28e7241e42904334b failed
- [Service proxy.apply_sudo._wrapped_f]: fail to operator sudo,message: send request fail, status code: 400, error: None, message: illegal param\",\"status\":-2}
- some html not in /opt/huawei/openresty/nginx/html
- cannot access /opt/huawei/openresty/nginx/conf/ssl/sample/resty-auto-ssl-fallback.pem.Permission denined
- fail to operator sudo, message: send request fail, status code: 400, task: control sudo permission, status: failed
- some certificate not in /opt/huawei/openresty/nginx/conf/ssl
- crontab -l \n+ echo 'Permission denied crontab'
- 资源间绑定服务不一致
-
SLB同步异常相关问题
- 运维中心数据库治理
- 运维中心访问凭据管理服务
- 运营中心
-
运行时引擎用户指南(即将下线)
- AppStage运行时引擎简介
- 进入AppStage运行时引擎
- 通过微服务平台管理微服务及相关资源
- 配置运行时引擎负载均衡
- 管理Cloud Map中的服务资源
- 配置运行时引擎数据库治理
- 配置访问凭据管理服务
- 文档下载
- 通用参考
链接复制成功!
为容器集群安装插件
ERS提供通过插件模板为集群安装插件的功能,本章节介绍如何为集群安装插件。
前提条件
已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。
为集群安装插件
- 进入AppStage运维中心。
- 在顶部导航栏选择服务。
- 单击
,选择“运维 > 弹性资源服务(ERS)”。
- 选择左侧导航栏的“插件中心”。
- 单击需要使用的插件模板的“创建”,打开“插件模板列表”页面。目前支持插件及插件资源占用如表1所示。
表1 插件说明 插件
命名空间
Pod名称
实例个数
container
cpu request
cpu limit
memory request
memory limit
代理插件
cluster-agent
ers-manager
ers-cluster-agent
1
ers-agent-register
100m
300m
100Mi
500Mi
ers-job-exec-controller
100m
300m
100Mi
300Mi
监控插件
cluster-monitoring
ers-monitoring
prometheus-k8s
1
prometheus
100m
2c
500Mi
5Gi
config-reloader
50m
50m
50Mi
50Mi
dhac-controller
1
dhac-controller
30m
200m
30Mi
500Mi
kube-rbac-proxy
30m
100m
30Mi
100Mi
dhac-agent
节点数
dhac-agent
110m
500m
70Mi
500Mi
kube-rbac-proxy
30m
100m
30Mi
100Mi
prometheus-operator
1
prometheus-operator
100m
200m
100Mi
500Mi
kube-rbac-proxy-main
10m
100m
20Mi
100Mi
prometheus-kafka-adapter
2
pro-kafka-adapter
50m
500m
100Mi
500Mi
kube-state-metrics
1
kube-rbac-proxy-main
10m
100m
20Mi
100Mi
kube-rbac-proxy-self
10m
100m
20Mi
100Mi
kube-state-metrics
50m
200m
50Mi
500Mi
prometheus-adapter
1
prometheus-adapter
20m
200m
20Mi
200Mi
容器IP上报插件
pod-upstream-controller
ers-manager
upstream-controller
1
upstream-controller
200m
2c
1Gi
4Gi
filebeat
100m
1c
500Mi
1Gi
kube-rbac-proxy-main
10m
400m
500Mi
500Mi
deployset插件
ersdeploysetcontroller
ers-manager
ersdeployset-controller
1
ersdeployset-controller
50m
1c
100Mi
2Gi
filebeat
100m
1c
500Mi
1Gi
kube-rbac-proxy-main
10m
400m
500Mi
500Mi
容器弹性扩缩容插件
pod-autoscaling-controller
ers-manager
ers-autoscaling-controller
1
ers-autoscaling-controller
100m
2c
200Mi
2Gi
filebeat
100m
1c
500Mi
1Gi
kube-rbac-proxy-main
10m
400m
500Mi
500Mi
prometheus-autoscaling
2
prometheus
100m
2c
500Mi
500Mi
prometheusconfigreloaderautoscaling
100m
200m
100Mi
200Mi
rules-configmap-reloader
50m
100m
100Mi
100Mi
kube-rbac-proxy-main
10m
500m
100Mi
1Gi
prometheus-operator-autoscaling
1
kube-rbac-proxy-main
10m
400m
500Mi
500Mi
prometehus-operator-auto-scaling
100m
500m
100Mi
100Mi
日志接入插件
aiopslogdaemonset
ombi
logservice-crd-controller
2
logservice-crd-controller
50m
200m
50Mi
200Mi
logservice-filebeat
带标签的节点数
filebeat4aiops
500m
2c
2Gi
2Gi
kube-rbac-proxy
30m
100m
30Mi
100Mi
- 配置插件参数,具体如表2所示,配置完成后,单击“确定”。
表2 插件参数 参数名称
参数说明
选择集群
选择需要安装插件的集群,可选集群为已纳管集群。
选择版本号
选择需要使用的插件模板的版本号。
变量文件名称
选择插件模板的变量文件。
工作负载
安装cluster-monitoring、pod-upstream-controller插件时可以查看需要使用的工作负载。
自定义变量
单击“添加”设置键值对形式的应答。也可以进行批量添加,批量添加格式为{"k1":"v1","k2":"v2"}。
可单击“复制”,复制已设置的键值对应答,复制的应答格式为{"k1":"v1","k2":"v2"}。
创建aiopslogdaemonset、cluster-monitoring插件时需要新增键值,具体值可根据实际需要设置,其余插件使用默认值。
aiopslogdaemonset:
filebeat.aiops_log_dir={业务的hostPath} #filebeat采集的业务日志路径
cluster-monitoring:
- alertmanager.replicas=0 #AlertManger工作负载POD实例个数
- event_adapter.replicas=0 #EventAdapter工作负载POD实例个数
- event_exporter.replicas=0 #EventExporter工作负载POD实例个数
- kafkadapter.mem_request=1Gi #KafakaAdapter工作负载申请内存大小
- prometheus.cpu_reuquest=1 #prometheus工作负载申请CPU核心数
- prometheus.mem_request=2Gi #prometheus工作负载申请内存大小
- prometheus.replicas=1 #prometheus工作负载POD实例个数
更多操作
您还可以对已安装的插件进行以下操作。
操作名称 |
操作步骤 |
---|---|
升级插件 |
在插件列表,单击待升级的插件所在行“操作”列的“升级”。 |
回滚插件 |
在插件列表,单击待回滚的插件所在行“操作”列的“回滚”。 |
删除插件 |
在插件列表,单击待删除的插件所在行“操作”列的“删除”。 |
导出资源内容 |
在插件列表,勾选待导出资源内容的插件,然后单击列表左上方的“导出资源内容”。 |