Realización de reinicio continuo
Después de modificar los elementos de configuración de un componente de big data, debe reiniciar el servicio correspondiente para que las nuevas configuraciones surtan efecto. Si utiliza un modo de reinicio normal, todos los servicios o instancias se reinician simultáneamente, lo que puede provocar una interrupción del servicio. Para asegurarse de que los servicios no se vean afectados durante el reinicio del servicio, puede reiniciar servicios o instancias en lotes mediante el reinicio continuo. Para las instancias en modo activo/en espera, una instancia en espera se reinicia primero y luego se reinicia una instancia activa. El reinicio continuo tarda más de lo normal.
Servicio |
Instancia |
Si se admite el reinicio continuo |
---|---|---|
HDFS |
NameNode |
Sí |
Zkfc |
||
JournalNode |
||
HttpFS |
||
DataNode |
||
Yarn |
ResourceManager |
Sí |
NodeManager |
||
Hive |
MetaStore |
Sí |
WebHCat |
||
HiveServer |
||
Mapreduce |
JobHistoryServer |
Sí |
HBase |
HMaster |
Sí |
RegionServer |
||
ThriftServer |
||
RESTServer |
||
Spark |
JobHistory |
Sí |
JDBCServer |
||
SparkResource |
No |
|
Hue |
Hue |
No |
Tez |
TezUI |
No |
Loader |
Sqoop |
No |
Zookeeper |
Quorumpeer |
Sí |
Kafka |
Broker |
Sí |
MirrorMaker |
No |
|
Flume |
Flume |
Sí |
MonitorServer |
||
Storm |
Nimbus |
Sí |
UI |
||
Supervisor |
||
Logviewer |
Restricciones
- Realice un reinicio continuo durante las horas fuera de pico.
- De lo contrario, puede producirse una falla de reinicio continuo. Por ejemplo, si el rendimiento de Kafka es alto (más de 100 MB/s) durante el reinicio de balanceo de Kafka, el reinicio de balanceo de Kafka puede fallar.
- Por ejemplo, si las solicitudes por segundo de cada RegionServer en la interfaz nativa exceden 10,000 durante el reinicio continuo de HBase, debe aumentar el número de identificadores para evitar una falla de reinicio de RegionServer causado por cargas pesadas durante el reinicio.
- Antes del reinicio, compruebe el número de solicitudes actuales de HBase. Si el número de solicitudes de cada RegionServer en la interfaz nativa es superior a 10,000 aumente el número de identificadores para evitar un error.
- Si el número de nodos de Core en un clúster es inferior a seis, los servicios pueden verse afectados durante un corto período de tiempo.
- Preferentemente, realice un reinicio de instancia o servicio continuo y seleccione Only restart instances whose configurations have expired.
Realización de un reinicio de servicio continuo
- Seleccione > y haga clic en un nombre de clúster para ir a la página de detalles del clúster.
- Haga clic en Components y seleccione un servicio para el que desee realizar un reinicio continuo.
- En la página de la pestaña Service Status, haga clic en More y seleccione Rolling-restart Service.
Figura 1 Estado del servicio (MRS 1.9.2 se usa como ejemplo)
- Se muestra la página Rolling-restart Service. Seleccione Only restart instances whose configurations have expired y haga clic en OK para realizar el reinicio continuo del servicio.
Figura 2 Realización de un reinicio de servicio continuo
- Una vez completada la tarea de reinicio continuo, haga clic en Finish.
Figura 3 Finalización del reinicio del servicio continuo
Realización de un reinicio continuo de instancia
- Seleccione > y haga clic en un nombre de clúster para ir a la página de detalles del clúster.
- Haga clic en Components y seleccione un servicio para el que desee realizar un reinicio continuo.
- En la página de pestaña Instance, seleccione la instancia que desea reiniciar. Haga clic en More y seleccione Rolling-restart Instance.
Figura 4 Realización de un reinicio continuo de instancia
- Después de introducir la contraseña de administrador, se muestra la página Rolling-restart Instance. Seleccione Only restart instances whose configurations have expired y haga clic en OK para realizar el reinicio continuo de la instancia.
- Una vez completada la tarea de reinicio continuo, haga clic en Finish.
Realizar un reinicio de clúster continuo
- Seleccione > y haga clic en un nombre de clúster para ir a la página de detalles del clúster.
- En la esquina superior derecha de la página, elija Management Operations >Perform Rolling Cluster Restart.
Figura 5 Realización de un reinicio continuo de un clúster (Uso de MRS 1.9.2 como ejemplo)
- Se muestra la página Rolling-restart Cluster. Seleccione Only restart instances whose configurations have expired y haga clic en OK para realizar el reinicio continuo del clúster.
- Una vez completada la tarea de reinicio continuo, haga clic en Finish.
Descripción del parámetro de reinicio continuo
Tabla 2 describe los parámetros de reinicio continuo.
Parámetro |
Descripción |
---|---|
Only restart instances whose configurations have expired |
Especifica si se deben reiniciar solo las instancias de un clúster que se hayan modificado. |
Enable rack strategy |
Si se debe habilitar la estrategia de reinicio continuo de rack simultáneos. Este parámetro solo tiene efecto para los roles que cumplen con la estrategia de reinicio continuo de rack. (Los roles admiten el reconocimiento de rack y las instancias de los roles pertenecen a dos o más racks.)
NOTA:
Este parámetro es configurable solo cuando se realiza un reinicio continuo en HDFS y YARN en MRS 3.x o posterior. |
Data Node Instances to Be Batch Restarted |
Especifica la cantidad de instancias que se reinician en cada lote cuando se utiliza la estrategia de reinicio secuencial por lotes. El valor predeterminado es 1. El valor varía de 1 a 20. Este parámetro solo es válido para nodos de datos. |
Batch Interval |
Especifica el intervalo entre dos lotes de instancias para el reinicio continuo. El valor predeterminado es 0. El valor oscila entre 0 y 2147483647. La unidad es segunda. Nota: Establecer el parámetro de intervalo por lotes puede aumentar la estabilidad del proceso de componente de big data durante el reinicio continuo. Se recomienda establecer este parámetro en un valor no predeterminado, por ejemplo, 10. |
Decommissioning Timeout Interval |
Intervalo de desmantelamiento para instancias de rol durante un reinicio continuo. |
Batch Fault Tolerance Threshold |
Especifica los tiempos de tolerancia cuando el reinicio continuo de instancias no se ejecuta en lotes. El valor predeterminado es 0, que indica que la tarea de reinicio continuo finaliza después de que no se reinicie ningún lote de instancias. El valor oscila entre 0 y 2147483647. |
Procedimiento en un escenario típico
- Seleccione > y haga clic en un nombre de clúster para ir a la página de detalles del clúster.
- Haga clic en Components y seleccione HBase. Se muestra la página del servicio HBase.
- Haga clic en la pestaña Service Configuration, modifique un parámetro HBase y guarde la configuración como se le solicite.
En versiones anteriores a MRS 3.x no seleccione Restart the affected services or instances. Esta opción indica un reinicio normal. Si selecciona esta opción, se reiniciarán todos los servicios o instancias, lo que puede provocar una interrupción del servicio.
- Después de guardar las configuraciones, haga clic en Finish.
- Haga clic en la pestaña Service Status.
- En la página de la pestaña Service Status, haga clic en More y seleccione Rolling-restart Service.
Figura 6 Estado del servicio - reinicio continuo (usando MRS 1.9.2 como ejemplo)
- Después de introducir la contraseña de administrador, se muestra la página Rolling-restart Service. Seleccione Only restart instances whose configurations have expired y haga clic en OK para realizar el reinicio continuo.
Figura 7 Configuración del reinicio continuo del servicio
- Una vez completada la tarea de reinicio continuo, haga clic en Finish.
Figura 8 Finalización del reinicio del servicio continuo