Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.

Centro de ayuda/ MapReduce Service/ Descripción general del servicio/ Escenarios de aplicación

Actualización más reciente 2023-04-14 GMT+08:00

Ver PDF

Escenarios de aplicación

Big data es omnipresente en nuestras vidas. Huawei Cloud MRS es adecuado para procesar big data en sectores como el Internet de las cosas (IoT), el comercio electrónico, las finanzas, la fabricación, la salud, la energía y los departamentos gubernamentales.

Análisis de datos a gran escala

El análisis de datos a gran escala es un escenario importante en los sistemas modernos de big data. En general, una empresa tiene múltiples fuentes de datos. Después de acceder a los datos, se requiere el procesamiento de extracción, transformación y carga (ETL) para generar datos modelizados para cada módulo de servicio para analizar y clasificar los datos. Este tipo de servicio tiene las siguientes características:

Los requisitos para la ejecución en tiempo real no son altos, y el tiempo de ejecución del trabajo varía de docenas de minutos a horas.
El volumen de datos es grande.
Hay varias fuentes de datos y formatos diversificados.
El procesamiento de datos generalmente consiste en múltiples tareas, y los recursos deben planificarse en detalle.

En la industria de la protección del medio ambiente, los datos climáticos se almacenan en OBS y periódicamente se vierten en HDFS para el análisis por lotes. 10 TB de datos climáticos se pueden analizar en 1 hora.

Figura 1 Análisis de datos a gran escala en la industria de la protección del medio ambiente
haga clic para agrandar

MRS tiene las siguientes ventajas en este escenario.

Bajo costo: OBS ofrece almacenamiento rentable.
Análisis masivo de datos: los datos a nivel de TB/PB se analizan mediante Hive.
Herramienta de importación y exportación de datos visualizados: Loader exporta datos a Data Warehouse Service (DWS) para análisis de inteligencia empresarial (BI).

Almacenamiento de datos a gran escala

Un usuario que tiene una gran cantidad de datos estructurados generalmente requiere capacidades de consulta en tiempo casi real basadas en índices. Por ejemplo, en un escenario de Internet de Vehículos (IoV), la información de mantenimiento del vehículo es consultada por el número del vehículo. Por lo tanto, la información del vehículo se indexa basándose en los números del vehículo cuando se está almacenando, para implementar una respuesta de segundo nivel en este escenario. Generalmente, el volumen de datos es grande. El usuario puede almacenar datos durante uno a tres años.

Por ejemplo, en la industria de IoV, una empresa de automóviles almacena datos en HBase, que admite el almacenamiento a nivel de PB y las consultas CDR en milisegundos.

Figura 2 Almacenamiento de datos a gran escala en la industria IoV
haga clic para agrandar

MRS tiene las siguientes ventajas en este escenario.

Tiempo real: Kafka accede a grandes cantidades de mensajes del vehículo en tiempo real.
Almacenamiento masivo de datos: HBase almacena volúmenes masivos de datos y admite consultas de datos en milisegundos.
Consulta de datos distribuidos: Spark analiza y consulta volúmenes masivos de datos.

Procesamiento de datos en tiempo real

El procesamiento de datos en tiempo real se utiliza generalmente en escenarios como detección de anomalías, detección de fraudes, alarmas basadas en reglas y monitoreo de procesos de servicio. Los datos se procesan mientras se introducen en el sistema.

Por ejemplo, en la industria de Internet of elevators & escalators (IoEE), los datos de ascensores y escaleras mecánicas inteligentes se importan a los clústeres de streaming de MRS en tiempo real para alarmar en tiempo real.

Figura 3 Procesamiento de streaming de baja latencia en la industria IoEE
haga clic para agrandar

MRS tiene las siguientes ventajas en este escenario.

Ingestión de datos en tiempo real: Flume implementa la ingestión de datos en tiempo real y proporciona varios métodos de recopilación de datos y acceso al almacenamiento.
Acceso a la fuente de datos: Kafka accede a los datos de decenas de miles de ascensores y escaleras mecánicas en tiempo real.

Tema anterior: Ventajas de MRS en comparación con Hadoop de desarrollo propio

Tema siguiente: Elección de una versión apropiada al comprar un clúster de MRS