Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Actualización más reciente 2023-04-14 GMT+08:00

Kudu

Kudu es un administrador de almacén de columnas desarrollado para la plataforma Apache Hadoop. Kudu comparte las propiedades técnicas comunes de las aplicaciones del ecosistema de Hadoop, es decir, se ejecuta en hardware básico, que es escalable horizontalmente, ofreciendo alta disponibilidad.

El diseño de Kudu tiene los siguientes beneficios:

  • Procesamiento rápido de cargas de trabajo OLAP
  • Integración con MapReduce y Spark y otros componentes del ecosistema de Hadoop
  • Estrecha integración con Apache Impala, por lo que es una buena alternativa mutable al uso de HDFS con Apache Parquet
  • Modelo de consistencia fuerte pero flexible, que le permite elegir los requisitos de consistencia por solicitud, incluida la opción de consistencia estrictamente serializable
  • Rendimiento sólido para ejecutar cargas de trabajo secuenciales y aleatorias simultáneamente
  • Fácil de gestionar
  • Servers y Masters de tabletas de alta disponibilidad utilizan el algoritmo de consenso de Raft, que garantiza que mientras más de la mitad del número total de réplicas esté disponible, la tableta esté disponible para lecturas y escrituras. Por ejemplo, si 2 de cada 3 réplicas o 3 de cada 5 réplicas están disponibles, la tableta está disponible. Las lecturas pueden ser atendidas por tabletas seguidoras de solo lectura, incluso en caso de falla de una tableta líder.
  • Modelo de datos estructurados

Al combinar todas estas propiedades, Kudu se dirige a la compatibilidad con familias de aplicaciones que son difíciles o imposibles de implementar en las tecnologías de almacenamiento de Hadoop de generación actual.

Algunos ejemplos de aplicaciones para las que Kudu es una gran solución son:
  • Aplicaciones de informes en las que los datos recién llegados deben estar disponibles de inmediato para los usuarios finales
  • Aplicaciones de serie temporal que deben soportar simultáneamente consultas a través de grandes cantidades de datos históricos y consultas granulares sobre una entidad individual que debe regresar muy rápidamente
  • Aplicaciones que utilizan modelos predictivos para tomar decisiones en tiempo real con actualizaciones periódicas del modelo predictivo basadas en todos los datos históricos