Escalamiento vertical de un clúster
Puede reducir el número de nodos principales o de tareas a escalar en un clúster en función de los requisitos de servicio, de modo que MRS ofrezca mejores capacidades de almacenamiento e informática con menores costos de operación.
Solo se pueden escalar clústeres de pago por uso. Para obtener más información acerca de cómo escalar en un nodo anual/mensual, consulte Cancelar la suscripción de un nodo especificado en un clúster anual/mensual.
Antecedentes
Un clúster puede tener tres tipos de nodos: nodos de master, core, y task. Actualmente, solo se pueden eliminar los nodos principales y de tareas. Para escalar en un clúster, solo necesita ajustar el número de nodos en la consola MRS. A continuación, MRS selecciona automáticamente los nodos que se van a eliminar.
Las políticas para que MRS seleccione automáticamente nodos son las siguientes:
- MRS no selecciona los nodos con componentes básicos instalados, como ZooKeeper, DBService, KrbServer y LdapServer, porque estos componentes básicos son la base para que se ejecute el clúster.
- Los nodos principales almacenan datos de servicio de clúster. Al escalar en un clúster, asegúrese de que todos los datos de los nodos principales que se van a eliminar se han migrado a otros nodos. Puede realizar operaciones de escalado de seguimiento solo después de que se retiren todos los servicios de componentes, por ejemplo, quitar nodos del Manager y eliminar los ECS. Al seleccionar los nodos de core, MRS selecciona preferentemente los nodos con una pequeña cantidad de datos e instancias sanas que se van a desmantelar para evitar fallos en el desmantelamiento. Por ejemplo, si DataNodes se instalan en nodos de core en un clúster de análisis, MRS selecciona preferentemente los nodos con un volumen de datos pequeño y un buen estado de salud durante el escalamiento vertical.
Cuando se eliminan los nodos centrales, sus datos se migran a otros nodos. Si la empresa de usuario ha almacenado en caché la ruta de almacenamiento de datos, el cliente actualizará automáticamente la ruta, lo que puede aumentar la latencia de procesamiento del servicio temporalmente. El escalamiento vertical del clúster puede ralentizar la respuesta del primer acceso a algunos datos de HBase en HDFS. Puede reiniciar HBase o deshabilitar o habilitar tablas relacionadas para resolver este problema.
- Los nodos de task son nodos informáticos y no almacenan datos de clúster. La migración de datos no implica la eliminación de nodos de task. Por lo tanto, al seleccionar nodos de task, MRS selecciona preferentemente nodos cuyo estado de salud es defectuoso, desconocido o subsano. En la pestaña Components de la consola MRS, haga clic en un servicio y, a continuación, en la pestaña Instances para ver el estado de las instancias de nodo.
Política de verificación de escalamiento vertical
Para evitar fallos de desmantelamiento de componentes, los componentes proporcionan diferentes restricciones de desmantelamiento. El escalamiento vertical solo se permite cuando se cumplen las restricciones de todos los componentes instalados. Tabla 1 describe las políticas de verificación de escalamiento vertical.
Componente |
Restricción |
---|---|
HDFS/DataNode |
El número de nodos disponibles tras el escalamiento vertical es mayor o igual que el número de copias HDFS y el volumen total de datos HDFS no supera el 80% de la capacidad total del clúster HDFS. Esto asegura que el espacio restante es suficiente para almacenar los datos existentes después de la escalación y reserva algo de espacio para su uso futuro.
NOTA:
Para garantizar la fiabilidad de los datos, se genera automáticamente una copia de respaldo por cada archivo guardado en HDFS, es decir, se generan dos copias en total. |
HBase/RegionServer |
La memoria total disponible de RegionServers en todos los nodos excepto los nodos que se van a eliminar es superior a 1.2 veces la memoria que RegionServers utiliza actualmente en estos nodos. Esto garantiza que el nodo al que se migra la región de un nodo dado de baja tiene memoria suficiente para soportar la región del nodo dado de baja. |
Storm/ Supervisor |
Después del escalamiento vertical, asegúrese de que el número de ranuras en el clúster es suficiente para ejecutar las tareas enviadas. Esto evita que no haya suficientes recursos disponibles para ejecutar las tareas de procesamiento de flujo después del escalamiento vertical. |
Flume/FlumeServer |
Si FlumeServer está instalado en un nodo y se han configurado tareas de Flume para el nodo, el nodo no se puede eliminar. Esto evita que el programa de servicio desplegado se elimine por error. |
ClickHouse/ClickHouseServer |
Para obtener más información, consulte Restricciones en la reducción de ClickHouseServer. Esto garantiza que los datos de los nodos retirados de servicio se migren a los nodos en uso. |
Escalamiento vertical de un clúster mediante especificación de la cantidad de nodo
- Inicie sesión en la consola de MRS.
- Seleccione Clusters > Active Clusters, seleccione un clúster en ejecución y haga clic en su nombre para cambiar a la página de detalles del clúster.
- Haga clic en la pestaña Nodes. En la columna Operation del grupo de nodos, haga clic en Scale In para ir a la página Scale In.
Esta operación solo se puede realizar cuando el clúster y todos los nodos en él se están ejecutando.
- Establezca Scale-In Type en Node quantity.
- Establezca Scale-In Nodes y haga clic en OK.
- Antes de escalar verticalmente el clúster, compruebe si la configuración del grupo de seguridad es correcta. Asegúrese de que una regla de grupo de seguridad entrante contenga una regla en la que Protocol & Port esté establecida en All y Source esté establecida en un intervalo de direcciones IP accesible de confianza.
- Si existen bloques de datos dañados en HDFS, puede fallar el escalamiento vertical. Póngase en contacto con soporte técnico de Huawei Cloud.
- Un cuadro de diálogo que aparece en la esquina superior derecha de la página indica que la tarea de quitar el nodo se ha ejecutado correctamente.
El proceso de escalado de clústeres se explica de la siguiente manera:
- Durante el escalado: el estado del clúster es Scaling In. Los trabajos enviados se ejecutarán, y usted puede enviar nuevos trabajos. No se le permite continuar escalando verticalmente o terminando el clúster. Se recomienda no reiniciar el clúster ni modificar la configuración del clúster.
- Escalamiento vertical exitoso: El estado del clúster es Running. Se facturan los recursos que se utilizan después del escalamiento vertical del clúster.
- Error de escalado: el estado del clúster es Running. Puede ejecutar trabajos o escalar de nuevo en el clúster.
Después de escalar el clúster, puede ver la información de nodo del clúster en la página Nodes.
Escalar verticalmente en un clúster mediante la eliminación de nodos que ya no se necesitan
If a faulty node is no longer needed, you can use this function to remove it. When the node is removed, the instance of the component role will not be decommissioned. Before deleting the node, ensure that the data on the node has been backed up. For details about how to remove ClickHouseServer nodes, see Eliminación de nodos de instancia ClickHouseServer. Only pay-per-use nodes can be scaled in.
- Log in to MRS Manager and choose Hosts.
- Select the host to be removed, choose More, and select Isolate to isolate the host.
For versions earlier than MRS 3.x, isolate the node to be removed by referring to Aislamiento de un host.
The time required for isolating a host depends on the data volume on the host. A larger data volume requires a longer time.
After the node is isolated, the node status changes to Isolated.
- If the host isolation fails, log in to MRS Manager, click to search for the task that fails to isolate the host in the task list, and rectify the fault as prompted.
- Isolating a host helps you decommission a node. If data on the node has been backed up, you can skip the operation of isolating a host, directly stop the host on the ECS console, and scale in the host.
- If a host is faulty, forcibly remove the node.
- Log in to the MRS console.
- Click the name of the cluster to go to its details page.
- Click the Nodes tab.
- Locate the row that contains the target node group and click Scale In in the Operation column to go to the Scale In page.
- Set Scale-In Type to Specific node and select the node to be removed.
Nodes in the Stopped, Lost, Unknown, Isolated, or Faulty status can be specified for scale-in. If the node cannot be selected, click Stop ECS to go to the ECS console to stop the node. On the cluster details page of the MRS console, click the Alarms tab and check whether any service fault alarms are generated after the node is stopped. If no such an alarm is generated, go back to the Scale In page and select the corresponding node for scale-in. If such an alarm is generated, clear the alarm before the scale-in.
Figura 1 Removing a specific node
- Select I understand the consequences of performing the scale-in operation, and click OK.
- Click the Components tab and check whether each component is normal. If any component is abnormal, wait for 5 to 10 minutes and check the component status again. If the fault persists, contact Huawei Cloud technical support.
- Click the Alarms tab and check whether there are exception alarms. If there are exception alarms, clear them before performing other operations.