弹性云服务器 ECS

 

弹性云服务器(Elastic Cloud Server)是一种可随时自助获取、可弹性伸缩的云服务器,帮助用户打造可靠、安全、灵活、高效的应用环境,确保服务持久稳定运行,提升运维效率

 
 

    服务器故障处理 更多内容
  • 故障信息收集

    故障信息收集 故障信息收集方法 如何获取显卡ID 如何查询显卡详细信息 如何查询显卡在位信息 如何查询NVIDIA的错误信息 如何查询XID报错信息 如何收集NVDIA日志 如何查询内核信息 如何收集驱动安装信息 父主题: GPU实例故障自诊断

    来自:帮助中心

    查看更多 →

  • 故障注入

    故障注入 故障注入是一种有效的测试方法,它能够将错误引入系统,以确保系统能够承受错误的并从错误中恢复。开启故障注入,可以通过配置灵活注入延迟或特定错误,开展故障测试。 以延迟故障注入为例,YAML设置如下(根据实际需求调整配置参数): route: - destination:

    来自:帮助中心

    查看更多 →

  • CarbonData故障排除

    CarbonData故障排除 当在Filter中使用Big Double类型数值时,过滤结果与Hive不一致 executor内存不足导致查询性能下降 为什么数据查询/加载失败,且发生“org.apache.carbondata.core.memory.MemoryException:

    来自:帮助中心

    查看更多 →

  • Hue故障排除

    Hue故障排除 使用Hive输入use database语句失效 使用Hue WebUI访问HDFS文件失败 在Hue页面上传大文件失败 集群未安装Hive服务时Hue原生页面无法正常显示 访问Hue原生页面时间长,文件浏览器报错Read timed out 父主题: 使用Hue

    来自:帮助中心

    查看更多 →

  • HBase故障排除

    使用scan命令仍然可以查询到已修改和已删除的数据 如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常 如何清理由于建表失败残留在ZooKeeper中的table-lock节点下的表名 为什么给HBase使用的HDFS目录设置quota会造成HBase故障 使用OfflineMeta

    来自:帮助中心

    查看更多 →

  • HBase故障排除

    使用scan命令仍然可以查询到已修改和已删除的数据 如何处理由于Region处于FAILED_OPEN状态而造成的建表失败异常 如何清理由于建表失败残留在ZooKeeper的table-lock节点下的表名 为什么给HBase使用的HDFS目录设置quota会造成HBase故障 使用OfflineMetaR

    来自:帮助中心

    查看更多 →

  • Hive故障排除

    Hive故障排除 如何对insert overwrite自读自写场景进行优化 父主题: 使用Hive

    来自:帮助中心

    查看更多 →

  • 故障通报概述

    故障通报概述 运维事件是ServiceInsight组成部分,提供故障通报功能。以运维事件为中心,提供事件的管理、通报及WarRoom能力。 功能特性 功能 功能描述 运维事件管理 由SRE通报的所有现网发生的可能造成或者已经造成服务的中断和业务质量下降的系统告警等问题,由运维团队负责管理。

    来自:帮助中心

    查看更多 →

  • 业务故障类

    业务故障类 网络流量异常的原因? DDoS攻击导致客户端禁止访问,怎么办? 遭受流量攻击,如何查询公网IP的具体防护信息? 没有受到攻击,触发了流量清洗? 父主题: DDoS原生基础防护常见问题

    来自:帮助中心

    查看更多 →

  • 容器类故障

    容器类故障 容器资源类 表1 容器资源类参数配置 故障类型 故障模式 设置参数 CPU 容器实例内CPU过载 类型:docker_id ;配置参数:docker_id /usage 类型:docker_name;配置参数:num/usag 内存 容器实例内内存过载 类型:docker_id

    来自:帮助中心

    查看更多 →

  • 故障优雅退出

    故障优雅退出 使用场景 随着模型规模和数据集的急剧增长,需要利用大规模的训练集训练大规模的神经网络。在大规模集群分布式训练时,会遇到集群中某个芯片、某台 服务器 故障,导致分布式训练任务失败。优雅退出是指中断的训练任务支持自动恢复,并可以在上一次训练中断的基础上继续训练,而不用从头开始。

    来自:帮助中心

    查看更多 →

  • 登录资源故障

    通过 堡垒机 登录服务器资源,报“并发会话超出许可限制”怎么办? 如何解决“mstsc客户端访问服务器资源时,移动界面应用有黑屏”的问题? 如何解决“mstsc客户端访问服务器资源时鼠标出现黑块”的问题? 访问Windows应用发布器,提示“创建用户失败”怎么办? 父主题: 故障排除

    来自:帮助中心

    查看更多 →

  • 运维故障

    如何解决“运维Windows服务器时使用WPS软件输入中文异常”的问题? 堡垒机IP绑定 域名 ,再将域名添加到WAF中进行防护,添加完成后访问不成功怎么处理? 云堡垒机配置LTS后状态依然为禁用该怎么处理? 应用运维登录后显示本次链接已断开怎么处理? 跨版本升级之后证书状态异常怎么处理? 父主题:

    来自:帮助中心

    查看更多 →

  • 故障模式库

    故障模式库 查看故障模式 基础设施类故障 软件系统类故障 容器类故障 Kubernetes集群 云服务故障 父主题: 混沌工程

    来自:帮助中心

    查看更多 →

  • 创建故障演练

    在演练“执行详情”页面,查看故障演练详情。 编辑演练 登录MAS控制台。 单击“故障演练”,进入“故障演练”页面。 单击故障演练所在行的“更多>编辑”。 根据需求对故障演练进行编辑。 删除演练 登录MAS控制台。 单击“故障演练”,进入“故障演练”页面。 单击故障演练所在行的“更多>删除”。

    来自:帮助中心

    查看更多 →

  • 故障通报概述

    故障通报概述 运维事件是ServiceInsight组成部分,提供故障通报功能。以运维事件为中心,提供事件的管理、通报及WarRoom能力。 功能特性 功能 功能描述 运维事件管理 由SRE通报的所有现网发生的可能造成或者已经造成服务的中断和业务质量下降的系统告警等问题,由运维团队负责管理。

    来自:帮助中心

    查看更多 →

  • 故障信息收集

    故障信息收集 收集设备日志信息 收集设备诊断信息 父主题: 维护宝典

    来自:帮助中心

    查看更多 →

  • HDFS故障排除

    HDFS故障排除 往HDFS写数据时报错“java.net.SocketException: No buffer space available” 删除大量文件后重启NameNode耗时长 EditLog不连续导致NameNode启动失败 当备NameNode存储元数据时,断电后备NameNode启动失败

    来自:帮助中心

    查看更多 →

  • Spark故障排除

    Spark故障排除 访问Spark应用获取的restful接口信息有误 为什么从Yarn Web UI页面无法跳转到Spark Web UI界面 HistoryServer缓存的应用被回收,导致此类应用页面访问时出错 加载空的part文件时,app无法显示在JobHistory的页面上

    来自:帮助中心

    查看更多 →

  • HetuEngine故障排除

    HetuEngine故障排除 HetuEngine计算实例启动失败报错Python不存在 HetuEngine计算实例启动后状态为故障 父主题: 使用HetuEngine

    来自:帮助中心

    查看更多 →

  • Doirs故障排除

    Doirs故障排除 多副本场景下,运行在副本丢失损坏的BE节点的查询任务报错 FE服务故障如何恢复 Broker Load导入任务的数据量超过阈值 父主题: 使用Doris

    来自:帮助中心

    查看更多 →

共105条
看了本文的人还看了