Escenarios de aplicación
Big data es omnipresente en nuestras vidas. Huawei Cloud MRS es adecuado para procesar big data en sectores como el Internet de las cosas (IoT), el comercio electrónico, las finanzas, la fabricación, la salud, la energía y los departamentos gubernamentales.
Análisis de datos a gran escala
El análisis de datos a gran escala es un escenario importante en los sistemas modernos de big data. En general, una empresa tiene múltiples fuentes de datos. Después de acceder a los datos, se requiere el procesamiento de extracción, transformación y carga (ETL) para generar datos modelizados para cada módulo de servicio para analizar y clasificar los datos. Este tipo de servicio tiene las siguientes características:
- Los requisitos para la ejecución en tiempo real no son altos, y el tiempo de ejecución del trabajo varía de docenas de minutos a horas.
- El volumen de datos es grande.
- Hay varias fuentes de datos y formatos diversificados.
- El procesamiento de datos generalmente consiste en múltiples tareas, y los recursos deben planificarse en detalle.
En la industria de la protección del medio ambiente, los datos climáticos se almacenan en OBS y periódicamente se vierten en HDFS para el análisis por lotes. 10 TB de datos climáticos se pueden analizar en 1 hora.
MRS tiene las siguientes ventajas en este escenario.
- Bajo costo: OBS ofrece almacenamiento rentable.
- Análisis masivo de datos: los datos a nivel de TB/PB se analizan mediante Hive.
- Herramienta de importación y exportación de datos visualizados: Loader exporta datos a Data Warehouse Service (DWS) para análisis de inteligencia empresarial (BI).
Almacenamiento de datos a gran escala
Un usuario que tiene una gran cantidad de datos estructurados generalmente requiere capacidades de consulta en tiempo casi real basadas en índices. Por ejemplo, en un escenario de Internet de Vehículos (IoV), la información de mantenimiento del vehículo es consultada por el número del vehículo. Por lo tanto, la información del vehículo se indexa basándose en los números del vehículo cuando se está almacenando, para implementar una respuesta de segundo nivel en este escenario. Generalmente, el volumen de datos es grande. El usuario puede almacenar datos durante uno a tres años.
Por ejemplo, en la industria de IoV, una empresa de automóviles almacena datos en HBase, que admite el almacenamiento a nivel de PB y las consultas CDR en milisegundos.
MRS tiene las siguientes ventajas en este escenario.
- Tiempo real: Kafka accede a grandes cantidades de mensajes del vehículo en tiempo real.
- Almacenamiento masivo de datos: HBase almacena volúmenes masivos de datos y admite consultas de datos en milisegundos.
- Consulta de datos distribuidos: Spark analiza y consulta volúmenes masivos de datos.
Procesamiento de datos en tiempo real
El procesamiento de datos en tiempo real se utiliza generalmente en escenarios como detección de anomalías, detección de fraudes, alarmas basadas en reglas y monitoreo de procesos de servicio. Los datos se procesan mientras se introducen en el sistema.
Por ejemplo, en la industria de Internet of elevators & escalators (IoEE), los datos de ascensores y escaleras mecánicas inteligentes se importan a los clústeres de streaming de MRS en tiempo real para alarmar en tiempo real.
MRS tiene las siguientes ventajas en este escenario.
- Ingestión de datos en tiempo real: Flume implementa la ingestión de datos en tiempo real y proporciona varios métodos de recopilación de datos y acceso al almacenamiento.
- Acceso a la fuente de datos: Kafka accede a los datos de decenas de miles de ascensores y escaleras mecánicas en tiempo real.