Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Cómputo
Elastic Cloud Server
Bare Metal Server
Auto Scaling
Image Management Service
Dedicated Host
FunctionGraph
Cloud Phone Host
Huawei Cloud EulerOS
Redes
Virtual Private Cloud
Elastic IP
Elastic Load Balance
NAT Gateway
Direct Connect
Virtual Private Network
VPC Endpoint
Cloud Connect
Enterprise Router
Enterprise Switch
Global Accelerator
Gestión y gobernanza
Cloud Eye
Identity and Access Management
Cloud Trace Service
Resource Formation Service
Tag Management Service
Log Tank Service
Config
Resource Access Manager
Simple Message Notification
Application Performance Management
Application Operations Management
Organizations
Optimization Advisor
Cloud Operations Center
Resource Governance Center
Migración
Server Migration Service
Object Storage Migration Service
Cloud Data Migration
Migration Center
Cloud Ecosystem
KooGallery
Partner Center
User Support
My Account
Billing Center
Cost Center
Resource Center
Enterprise Management
Service Tickets
HUAWEI CLOUD (International) FAQs
ICP Filing
Support Plans
My Credentials
Customer Operation Capabilities
Partner Support Plans
Professional Services
Análisis
MapReduce Service
Data Lake Insight
CloudTable Service
Cloud Search Service
Data Lake Visualization
Data Ingestion Service
GaussDB(DWS)
DataArts Studio
IoT
IoT Device Access
Otros
Product Pricing Details
System Permissions
Console Quick Start
Common FAQs
Instructions for Associating with a HUAWEI CLOUD Partner
Message Center
Seguridad y cumplimiento
Security Technologies and Applications
Web Application Firewall
Host Security Service
Cloud Firewall
SecMaster
Data Encryption Workshop
Database Security Service
Cloud Bastion Host
Data Security Center
Cloud Certificate Manager
Blockchain
Blockchain Service
Servicios multimedia
Media Processing Center
Video On Demand
Live
SparkRTC
Almacenamiento
Object Storage Service
Elastic Volume Service
Cloud Backup and Recovery
Storage Disaster Recovery Service
Scalable File Service
Volume Backup Service
Cloud Server Backup Service
Data Express Service
Dedicated Distributed Storage Service
Contenedores
Cloud Container Engine
SoftWare Repository for Container
Application Service Mesh
Ubiquitous Cloud Native Service
Cloud Container Instance
Bases de datos
Relational Database Service
Document Database Service
Data Admin Service
Data Replication Service
GeminiDB
GaussDB
Distributed Database Middleware
Database and Application Migration UGO
TaurusDB
Middleware
Distributed Cache Service
API Gateway
Distributed Message Service for Kafka
Distributed Message Service for RabbitMQ
Distributed Message Service for RocketMQ
Cloud Service Engine
EventGrid
Dedicated Cloud
Dedicated Computing Cluster
Aplicaciones empresariales
ROMA Connect
Message & SMS
Domain Name Service
Edge Data Center Management
Meeting
AI
Face Recognition Service
Graph Engine Service
Content Moderation
Image Recognition
Data Lake Factory
Optical Character Recognition
ModelArts
ImageSearch
Conversational Bot Service
Speech Interaction Service
Huawei HiLens
Developer Tools
SDK Developer Guide
API Request Signing Guide
Terraform
Koo Command Line Interface
Distribución de contenido y cómputo de borde
Content Delivery Network
Intelligent EdgeFabric
CloudPond
Soluciones
SAP Cloud
High Performance Computing
Servicios para desarrolladores
ServiceStage
CodeArts
CodeArts PerfTest
CodeArts Req
CodeArts Pipeline
CodeArts Build
CodeArts Deploy
CodeArts Artifact
CodeArts TestPlan
CodeArts Check
Cloud Application Engine
aPaaS MacroVerse
KooPhone
KooDrive

ALM-12033 Falla de disco lento (Para MRS 2.x o anterior)

Actualización más reciente 2023-11-20 GMT+08:00

Descripción

  • En el caso de HDDs, la alarma se activa cuando se cumple alguna de las siguientes condiciones:
    • El sistema ejecuta el comando iostat cada 3 segundos y detecta que el valor svctm supera los 1000 ms durante 10 períodos consecutivos en 30 segundos.
    • El sistema ejecuta el comando iostat cada 3 segundos y detecta que más del 60% de E/S supera los 150 ms en 300 segundos.
  • Para las SSD, la alarma se activa cuando se cumple alguna de las siguientes condiciones:
    • El sistema ejecuta el comando iostat cada 3 segundos y detecta que el valor svctm supera los 1000 ms durante 10 períodos consecutivos en 30 segundos.
    • El sistema ejecuta el comando iostat cada 3 segundos y detecta que más del 60% de E/S supera los 20 ms en 300 segundos.

Esta alarma se borra automáticamente cuando las condiciones anteriores no se han cumplido durante 15 minutos.

NOTA:

El principio de detección de alarma es el siguiente:

En la plataforma Linux, ejecute el comando iostat -x -t 1 para comprobar si la E/S es defectuosa. Específicamente, marque el valor svctm en el cuadro rojo de la siguiente figura.

svctm indica el tiempo de servicio de E/S del disco.

Atributo

ID de alarma

Severidad de la alarma

Borrar automáticamente

12033

Grave

Parámetros

Nombre

Significado

Source

Especifica el clúster o sistema para el que se genera la alarma.

ServiceName

Especifica el servicio para el que se genera la alarma.

RoleName

Especifica el rol para el que se genera la alarma.

Host Name

Especifica el host para el que se genera la alarma.

DiskName

Especifica el disco para el que se genera la alarma.

Impacto en el sistema

El rendimiento del servicio se deteriora, las capacidades de procesamiento de servicios se vuelven deficientes y es posible que los servicios no estén disponibles.

Causas posibles

El disco está envejecido o tiene sectores defectuosos.

Procedimiento

Comprobar el estado de disco.

  1. En la página de detalles del clúster MRS, haga clic en la alarma de la lista de alarmas en tiempo real. En el área Alarm Details, obtenga información sobre el host para el que se genera la alarma e información sobre el disco defectuoso.
  2. Compruebe si el nodo para el que se genera la alarma se encuentra en un entorno de virtualización.

    • En caso afirmativo, vaya a 3.
    • Si no, vaya a 6.

  3. Compruebe si el rendimiento de almacenamiento proporcionado por el entorno de virtualización cumple con los requisitos de hardware. A continuación, vaya a 4.
  4. Inicie sesión en el nodo de alarma como usuario root, ejecute el comando df -h y compruebe si la salida del comando contiene el valor del campo DiskName.

    • En caso afirmativo, vaya a 6.
    • Si no, vaya a 5.

  5. Ejecute el comando lsblk para comprobar si se ha creado la asignación entre el valor de DiskName y el disco.

    • En caso afirmativo, vaya a 6.
    • Si no, vaya a 21.

  6. Inicie sesión en el nodo de alarma como usuario root, ejecute el comando lsscsi | grep "/dev/sd[x]" para ver la información del disco y compruebe si se ha configurado RAID.

    NOTA:

    En el comando /dev/sd[x] indica el nombre del disco obtenido en el archivo 1.

    Ejemplo:

    lsscsi | grep "/dev/sda"

    En la salida del comando, si se muestra ATA, SATA o SAS en la tercera línea, el disco no se ha organizado en un grupo RAID. Si se muestra otra información, se ha configurado RAID.

    • En caso afirmativo, vaya a 11.
    • Si no, vaya a 7.

  7. Ejecute el comando smartctl -i /dev/sd[x] para comprobar si el hardware admite la herramienta SMART.

    Ejemplo:

    smartctl -i /dev/sda

    En la salida del comando, si se muestra "SMART support is: Enabled", el hardware soporta SMART. Si "Device does not support SMART" o se muestra otra información, el hardware no admite SMART.

    • En caso afirmativo, vaya a 8.
    • Si no, vaya a 16.

  8. Ejecute el comando smartctl -H --all /dev/sd[x] para comprobar la información básica de SMART y determinar si el disco funciona correctamente.

    Ejemplo:

    smartctl -H --all /dev/sda

    Compruebe el valor de SMART overall-health self-assessment test result en la salida del comando. Si el valor es de FAILED, el disco está defectuoso y necesita ser reemplazado. Si el valor es PASSED, compruebe el valor de Reallocated_Sector_Ct o Elements in grown defect list. Si el valor es mayor que 100, el disco está defectuoso y necesita ser reemplazado.

    • En caso afirmativo, vaya a 9.
    • Si no, vaya a 17.

  9. Ejecute el comando smartctl -l error -H /dev/sd[x] para comprobar Glist del disco y determinar si el disco es normal.

    Ejemplo:

    smartctl -l error -H /dev/sda

    Compruebe la columna Command/Featrue_name en la salida del comando. Si se muestra READ SECTOR(S) o WRITE SECTOR(S), el disco tiene sectores defectuosos. Si se producen otros errores, la placa de circuito de disco está defectuosa. Ambos errores indican que el disco es anormal y necesita ser reemplazado.

    Si se muestra "No Errors Logged", no existe ningún registro de errores. Puede realizar el paso 9 para activar la autocomprobación SMART del disco.

    • En caso afirmativo, vaya a 10.
    • Si no, vaya a 17.

  10. Ejecute el comando smartctl -t long /dev/sd[x] para activar la autocomprobación SMART del disco. Después de ejecutar el comando, se muestra el tiempo en el que se va a completar la autocomprobación. Una vez completada la autocomprobación, repita 8 y 9 para comprobar si el disco funciona correctamente.

    Ejemplo:

    smartctl -t long /dev/sda

    • En caso afirmativo, vaya a 16.
    • Si no, vaya a 17.

  11. Ejecute el comando smartctl -d [sat|scsi]+megaraid,[DID] -H --all /dev/sd[x] para comprobar si el hardware admite SMART.

    NOTA:
    • En el comando [sat|scsi] indica el tipo de disco. Ambos tipos necesitan ser utilizados.
    • [DID] indica la información de intervalo. Las ranuras 0 a 15 necesitan ser utilizadas.

    Por ejemplo, ejecute los siguientes comandos en secuencia:

    smartctl -d sat+megaraid,0 -H --all /dev/sda

    smartctl -d sat+megaraid,1 -H --all /dev/sda

    smartctl -d sat+megaraid,2 -H --all /dev/sda

    ...

    Pruebe las combinaciones de comandos de diferentes tipos de disco e información de ranura. Si se muestra "SMART support is: Enabled" en la salida del comando, el disco soporta SMART. Registre los parámetros del tipo de disco y la información de ranura cuando se ejecuta correctamente un comando. Si "SMART support is: Enabled" no se muestra en la salida del comando, el disco no soporta SMART.

    • En caso afirmativo, vaya a 12.
    • Si no, vaya a 15.

  12. Ejecute el comando smartctl -d [sat|scsi]+megaraid,[DID] -H --all /dev/sd[x] grabado en 11 para comprobar la información básica de SMART y determinar si el disco es normal.

    Ejemplo:

    smartctl -d sat+megaraid,2 -H --all /dev/sda

    Compruebe el valor de SMART overall-health self-assessment test result en la salida del comando. Si el valor es de FAILED, el disco está defectuoso y necesita ser reemplazado. Si el valor es PASSED, compruebe el valor de Reallocated_Sector_Ct o Elements in grown defect list. Si el valor es mayor que 100, el disco está defectuoso y necesita ser reemplazado.

    • En caso afirmativo, vaya a 13.
    • Si no, vaya a 17.

  13. Ejecute el comando smartctl -d [sat|scsi]+megaraid,[DID] -l error -H /dev/sd[x] para comprobar la lista G del disco y determinar si el disco duro funciona correctamente.

    Ejemplo:

    smartctl -d sat+megaraid,2 -l error -H /dev/sda

    Compruebe la columna Command/Featrue_name en la salida del comando. Si se muestra READ SECTOR(S) o WRITE SECTOR(S), el disco tiene sectores defectuosos. Si se producen otros errores, la placa de circuito de disco está defectuosa. Ambos errores indican que el disco es anormal y necesita ser reemplazado.

    Si se muestra "No Errors Logged", no existe ningún registro de errores. Puede realizar el paso 9 para activar la autocomprobación SMART del disco.

    • En caso afirmativo, vaya a 14.
    • Si no, vaya a 17.

  14. Ejecute el comando smartctl -d [sat|scsi]+megaraid,[DID] -t long /dev/sd[x] para activar la autocomprobación SMART del disco. Después de ejecutar el comando, se muestra el tiempo en el que se va a completar la autocomprobación. Una vez completada la autocomprobación, repita 12 y 13 para comprobar si el disco funciona correctamente.

    Ejemplo:

    smartctl -d sat+megaraid,2 -t long /dev/sda

    • En caso afirmativo, vaya a 16.
    • Si no, vaya a 17.

  15. Si la tarjeta controladora RAID configurada no es compatible con SMART, el disco no es compatible con SMART. En este caso, utilice la herramienta de comprobación proporcionada por el proveedor de tarjeta controladora RAID correspondiente para rectificar la falla. Entonces vaya a 16.

    Por ejemplo, LSI es una herramienta de MegaCLI.

  16. En la página de detalles de alarma, haga clic en Clear Alarm. Compruebe si la alarma se notifica de nuevo en el mismo disco.

    Si la alarma se notifica más de tres veces, cambie el disco.

    • En caso afirmativo, vaya a 17.
    • En caso negativo, no se requiere ninguna otra acción.

Reemplazar el disco.

  1. En MRS Manager, seleccione Alarms.
  2. Vea la información detallada sobre la alarma. Compruebe los valores de HostName y DiskName en la información de ubicación para obtener la información sobre el disco defectuoso para el que se informa la alarma.
  3. Reemplace un disco.
  4. Verifique si la alarma se ha borrado.

    • En caso afirmativo, no es necesario hacer nada más.
    • Si no, vaya a 21.

Recopilar información de fallas.

  1. En MRS Manager, elija System > Export Log.
  2. Póngase en contacto con el personal de O&M y envíe los registros recopilados.

Eliminación de alarmas

Esta alarma se borra automáticamente después de rectificar la falla.

Información relacionada

Ninguna

Utilizamos cookies para mejorar nuestro sitio y tu experiencia. Al continuar navegando en nuestro sitio, tú aceptas nuestra política de cookies. Descubre más

Comentarios

Comentarios

Comentarios

0/500

Seleccionar contenido

Enviar el contenido seleccionado con los comentarios