应用平台 AppStage
应用平台 AppStage
- 最新动态
- 功能总览
- 产品介绍
- 计费说明
- 快速入门
- AppStage使用前准备
- AI原生应用引擎用户指南
- 开发中心用户指南
-
运维中心用户指南
- 运维中心简介
- 运维中心使用前准备
- 运维中心使用流程
- 进入运维中心
- 接入资源
- 部署应用
- 监控资源和应用
- 管理已纳管资源
- 管理运行时资源
- 管理工单
- 运营中心用户指南
- 最佳实践
- 开发指南
- API参考
- SDK参考
-
常见问题
- 权限管理
-
AI原生应用引擎
- 我创建的微调数据集会被其他用户调用去训练他们的大模型吗?
- 模型微调任务一直在等待中是什么原因?
- 大模型微调需要的数据有要求吗?
- AI原生应用引擎支持所有数据集进行数据标注吗?
- AI原生应用引擎中预置了哪些提示语?
- AI原生应用引擎训练好后的模型如何获取?
- 模型调测时,无法选择模型服务商API是什么原因?
- 我接入的模型需要满足什么要求才能在创建Agent时作为思考模型?
- Agent问答的时候报错“很抱歉,我的系统似乎遇到了一些故障问题,暂时无法为您提供服务”
- 自接入的模型在模型调测的时候报错是什么原因?
- 开源模型怎么部署?
- 平台有没有预置模型?
- 思考模型和问答模型的区别
- 工作流中知识库节点、LLM节点都需要配置实例,实例的API Key填什么?
- 工作流中工具节点的实例如何配置?
- 如何获取Agent发布时所需的API Key?
- 如何保证Agent每次问答都调用知识库?
- 工作流的返回是json格式,但是大模型会进行总结,如何以json格式直接输出?
- 如何在工作流中定制逻辑实现特定任务,比如时间格式转换、数组对象的push等
- 资产中心的工具怎么使用?
- Code代码节点的输入输出参数如何与其他节点进行交互和传递?
- Agent问答的时候没有回答
- 发布Agent的时候提示套餐校验失败
- 一站式创建Agent时如何取消选择默认模型,更换为其他模型
- 按照标题切分的时候,分段长度是什么意思?
- 工作流已启用,为什么在创建Agent时仍然无法选用?
- 如何通过调用Agent API将变量传递到工作流?
- 开发中心
- 运维中心部署服务
-
运维中心监控服务
- 如何查看EAP详细日志?
- 删除告警任务失败
- 告警后触发知识编排任务提示alert_type不存在
- 创建CES指标采集报错
- 如何卸载虚拟机上安装的filebeat?
-
异常检测Judge定时任务失败
- KeyError
- TypeError: not supported between instances of 'str' and 'float'
- TypeError("Cannot index by location index with a non-integer key")
- judge长时间处于SUBMIT状态直至失败
- fail to load model json
- judge日志无法查看,提示get request error
- judge日志大小1KB,且不刷新日志内容
- PSQLException: ERROR: invalid input syntax for type numeric
- PSQLException: ERROR: syntax error at or near
- too much null size
- judge_data_size(in):0
- ERROR - fail to load
- canceling statement due to user request
- 保存异常检测告警配置时报错
- 运维中心弹性资源服务
- 运维中心弹性网络服务
- 运维中心主机管理服务
- 运维中心微服务平台
-
运维中心负载均衡
-
SLB同步异常相关问题
- SSL_do_handshake() failed
- test nginx: nginx: [emerg] host not found in upstream "后端服务器名称" in /.../server...conf:17 nginx: .../nginx.conf test failed [FAILED
- no "ssl_certificate" is defined for the "listen ... ssl""
- no such file or directory......./ssl/dummy.pem
- test nginx: nginx: [alert] mmap(MAP_ANON|MAP_SHARED, 524288000) failed (12: Cannot allocate memory) nginx: [alert] munmap(FFFFFFFFFFFFFFFF, 524288000) failed
- duplicate value "error" in /opt/huawei/openresty/nginx/.../xxx.conf:40
- SLB同步检查不一致
- SLB一直同步,心跳异常
-
SLB部署失败相关问题
- FATAL Can't get local ip
- /etc/rc.d/init.d/functions: No such file or directory
- nginx is stopped
- will_upgrade\old_version:1.4.7
- Need to modify /etc/hosts,but no permission.
- system param fs.nr_open should not less than fs.file-max”or“system param net.ipv4.ip_local_port_range should >=30000
- some permission denied files in /opt/huawei/openresty/nginx/conf/
- Permission denied: '/opt/huawei/release/lf_test/SLB/
- install_slb_failed for /opt/huawei/openresty exists not for slb
- not all conf included in vhosts or slb_conf
- watchdog still running
- job 28e7241e42904334b failed
- [Service proxy.apply_sudo._wrapped_f]: fail to operator sudo,message: send request fail, status code: 400, error: None, message: illegal param\",\"status\":-2}
- some html not in /opt/huawei/openresty/nginx/html
- cannot access /opt/huawei/openresty/nginx/conf/ssl/sample/resty-auto-ssl-fallback.pem.Permission denined
- fail to operator sudo, message: send request fail, status code: 400, task: control sudo permission, status: failed
- some certificate not in /opt/huawei/openresty/nginx/conf/ssl
- crontab -l \n+ echo 'Permission denied crontab'
- 资源间绑定服务不一致
-
SLB同步异常相关问题
- 运维中心数据库治理
- 运维中心访问凭据管理服务
- 运营中心
- 管理控制台用户指南(即将下线)
- 业务控制台用户指南(即将下线)
-
运行时引擎用户指南(即将下线)
- AppStage运行时引擎简介
- AppStage运行时引擎使用前准备
- 进入AppStage运行时引擎
- 通过微服务平台管理微服务及相关资源
- 配置运行时引擎负载均衡
- 管理Cloud Map中的服务资源
- 配置运行时引擎数据库治理
- 配置访问凭据管理服务
- 文档下载
- 通用参考
链接复制成功!
什么是运维中心
运维面临的问题
- 应用的快速迭代与现网业务稳定性之间存在冲突,应用发布周期短,版本可能未经过充分的现网验证。
- 运维平台基于开源软件或者各类分散工具构建,各工具能力参差不齐,缺乏统一的数据接入、监控、诊断、数据治理体系。
- 系统可用性依赖全栈可观测,运维人员需要被动变主动,利用数据实时监控分析系统的性能、可靠性和运行状态,及时发现问题,精准定位问题。
- 外部安全攻击渗透频率日趋增多,攻击技术手段越发高超,数据泄露风险大。
如何解决运维问题
AppStage运维中心为华为云用户提供了一站式智能化运维平台,围绕云原生业务场景,将传统运维的以资源管理为核心升级为以应用管理为核心,沉淀华为内部运维经验,构建多个运维能力模块,形成强大运维生态系统,满足企业提高运维效率、提升运维质量、简化工作流程的需要。
运维中心的优势
- 简化运维管理:使用AppStage运维中心可以集中管理和监控IT资源及服务,大大简化了运维管理的复杂性。通过统一的Console,SRE可以轻松地管理服务器、数据库、网络和应用等各个方面,实现应用生命周期运行数据可视化,避免数据孤岛。
- 提高运维效率:AppStage运维中心提供了自动化的运维流程和任务调度功能,可以自动执行常见的运维任务,如监控、故障处理等,节省SRE大量的时间和精力,让运维团队能够更专注于解决重要的问题和提供高价值的服务。
- 实现故障快速恢复:AppStage运维中心具备强大的故障监测和自动恢复能力,当系统出现故障或异常时,AIOps可以及时发现并采取相应的措施进行修复,最大限度地减少停机时间和业务中断,减轻可能出现的业务损失和客户流失。
- 提供实时监控和报告:AppStage运维中心集成了丰富的监控和报表功能,可以实时监控系统的性能指标、资源利用率和安全状态等。通过可视化的报表和图表,SRE可以随时了解系统的运行情况,进行及时的决策和调整。同时,这些信息也可以用于向上级管理层的汇报和运维成果展示。
- 降低运维成本:AppStage运维中心沉淀了华为在运维领域的管理经验,基于人工智能技术提供数据分析,优化资源配置,预测未来需求,以降低IT资源成本。企业将应用迁移至华为云后,通过AppStage运维中心来自主管理和运维,可以自然使用上述能力获得成本优势。
- 提高运维安全性:AppStage运维中心通过身份验证、访问控制和加密等技术,保护企业应用不受攻击、侵入、干扰和破坏,确保客户数据的安全性和完整性,同时通过自动化变更、操作防呆等减少SRE的误操作风险。
运维中心应用场景
华为云AppStage运维中心是以云原生应用为中心的一站式数智化运维平台,围绕SRE的工作场景,基于华为内外部优秀实践,把运维流程、工具在业务场景中持续打磨,基于AI持续构建运维活动“自动驾驶”能力,打造自动化、数据化、智能化运维平台,围绕运维的“感知(数字化)、决策(智能化)、执行(自动化)”能力持续提升,大大降低了企业用户维护和使用云原生应用的门槛。
运维中心功能介绍
- 弹性网络服务(ENS):通过引入“隔离域”这一网络资源概念,将业务使用的底层网络资源进行封装,为具有相同安全保护需求并相互信任的服务提供访问策略的安全分组。当服务器加入到隔离域后,即受到这些访问规则的保护。访问规则继承自选定的安全区域(安全域),并根据租户声明的服务依赖关系自动生成。
图1 ENS与原有模式差异
隔离域内部是在虚机子网或者容器网段上加安全域包装在一起的,当建立了隔离域后,业务层只感知隔离域与隔离域之间的互通关系。
图2 业务感知差异 - 主机管理服务(VMS):是基于云原生的主机资源管理服务,负责各种类型的主机资源发放/回收/操作、OS管理、密码密钥管理。
通过将华为云购买的主机纳管至VMS进行统一管理,VMS功能如图3所示。
- 弹性资源服务(ERS):提供资源池监控、访问安全控制、任务调度、业务负载弹性伸缩、集群联邦、配额管理和多种K8s扩展等能力,通过统一的对外接口提供业务管理能力,上层业务不再感知下层资源。同时提供Portal可视化管理容器,包括工作负载的管理、配置文件管理和容器WebTerminal。
- 部署服务:基础设施即代码(Infrastructure as Code,简称IaC)是指使用代码方式来实现基础设施自动化配置和管理的方法,通过将传统的手动配置和脚本化配置转变为代码形式,使得基础设施的管理更加一致、可重复、可追踪和可版本控制。部署服务按服务管理资源,将微服务作为最小变更单元 ,进行自动化的变更管理。
- 监控服务(ServiceInsight):是一个为开发人员和运维SRE(Site Reliability Engineer)设计的全面监控平台。该平台围绕故障生命周期的各个阶段构建,提供即开即用的解决方案。它集成了预防、检测、诊断、恢复、通报和改进功能,旨在提供一个一体化的可观测性解决方案。
- 微服务平台:微服务平台(NUWA Runtime,简称NUWA)是一款全代管式微服务计算平台,可快速、安全地部署和扩缩容器化应用,是一个广义的Serverless平台,提供容器级别的完全托管的能力,目标是让业务看不到云。管理平台标准化业务的部署形式,业务只需要提供软件包,NUWA Runtime借助底层的弹性伸缩平台完成网络配置、双云集群部署、日志自动收集、灰度多阶段升级等。
- 负载均衡:负载均衡(Software/Server Load Balancer,简称SLB)基于Nginx/OpenResty构建,作为业务前置的流量开关,提供反向代理;负载均衡、路由分发、灰度分流、限流降级、访问控制、监控告警等能力。
- 服务发现:服务发现(NUWA Cloud Map,简称Cloud Map)是NUWA的重要组成部分,它设计的目的是作为云服务统一的服务注册发现中心,主要是为解决业务依赖环境配置繁琐的难题,具有服务注册和发现、业务故障隔离、服务路由、服务间调用关系正向设计和治理、微服务配置中心等特性。
- 数据库治理(WiseDBA):一站式数据库管理平台与数据库专家服务,为用户提供数据库台账、自动化SQL变更、数据查询、自动化数据提取、性能分析、负载分析、数据库风险诊断等功能。
- 访问凭据管理服务:访问凭据管理服务(Access Credential Management Service,简称ACMS)提供了微服务之间请求认证、敏感配置的托管和分发功能。
父主题: 运维中心简介