Introducción a los trabajos de MRS
Un trabajo MRS es la plataforma de ejecución de programas de MRS. Se utiliza para procesar y analizar datos de usuario. Después de crear un trabajo, toda la información del trabajo se muestra en la página de pestaña Jobs. Puede ver una lista de todos los trabajos y crear y gestionar trabajos. Si la pestaña Jobs no se muestra en la página de detalles del clúster, envíe un trabajo en segundo plano.
Las fuentes de datos procesadas por MRS son de OBS o HDFS. OBS es un servicio de almacenamiento basado en objetos que le proporciona capacidades de almacenamiento de datos masivas, seguras, confiables y rentables. MRS puede procesar datos en OBS directamente. Puede ver, gestionar y usar datos utilizando la página web de la plataforma de control de gestión o el cliente de OBS. Además, puede utilizar las API de REST de forma independiente o integrar las API en aplicaciones de servicio para gestionar y acceder a los datos.
Antes de crear trabajos, cargue los datos locales en OBS para que MRS calcule y analice. MRS permite exportar datos de OBS a HDFS para computación y análisis. Después de completar el análisis y la computación, puede almacenar los datos en HDFS o exportarlos a OBS. HDFS y OBS también pueden almacenar los datos comprimidos en el formato bz2 o gz.
Categoría
Un clúster de MRS permite crear y gestionar los siguientes trabajos: Si un clúster en estado Running no puede crear un trabajo, compruebe el estado de los componentes relacionados en la página de gestión del clúster. Para obtener más información, consulte Consulta y personalización de métricas de monitoreo de clústeres.
- MapReduce: proporciona la capacidad de procesar datos masivos de forma rápida y paralela. Es un modo de procesamiento de datos distribuido y entorno de ejecución. MRS apoya la presentación de los programas de JAR de MapReduce.
- Spark: un marco de computación en memoria distribuido. MRS admite trabajos de SparkSubmit, Spark Script y Spark SQL.
- SparkSubmit: Puede enviar los programas JAR y Python de Spark, ejecutar la aplicación de Spark y calcular y procesar datos de usuario.
- SparkScript: Puede enviar los scripts SparkScript y ejecutar por lotes sentencias de Spark SQL.
- Spark SQL: Puede usar sentencias de Spark SQL (similar a las sentencias SQL) para consultar y analizar datos de usuario en tiempo real.
- Hive: un almacén de datos de código abierto basado en Hadoop. MRS le permite enviar scripts de HiveScript y ejecutar sentencias SQL de Hive.
- Flink: proporciona un motor de procesamiento de big data distribuido que puede realizar cálculos con estado sobre flujos de datos tanto finitos como infinitos.
Lista de trabajos
Las tareas se muestran en orden cronológico de forma predeterminada en la lista de tareas, con los trabajos más recientes mostrados en la parte superior. Tabla 1 describe los parámetros en la lista de trabajos.
Parámetro |
Descripción |
---|---|
Name/ID |
Nombre del trabajo, que se establece cuando se crea un trabajo. ID es el identificador único de un trabajo. Después de agregar un trabajo, el sistema asigna automáticamente un valor a ID. |
Username |
Nombre del usuario que envía un trabajo. |
Type |
Se admiten los siguientes tipos de datos:
NOTA:
|
Status |
Estado del trabajo.
|
Result |
Resultado de ejecución de un trabajo.
NOTA:
Una vez que un trabajo ha tenido éxito o ha fallado, no puede volver a ejecutarlo. Sin embargo, puede agregar un trabajo y establecer parámetros de trabajo para volver a enviarlo. |
Queue Name |
Nombre de la cola enlazada al usuario que envía el trabajo |
Submitted |
Hora en que se envía un trabajo. |
Ended |
Hora en que se completa un trabajo o se detiene manualmente. |
Operation |
|
Ícono |
Descripción |
---|---|
|
Seleccione un intervalo de tiempo para el envío de trabajos para filtrar los trabajos enviados en el intervalo de tiempo. |
|
Seleccione un resultado de ejecución de trabajo determinado de la lista desplegable para mostrar trabajos del estado.
|
|
Seleccione un tipo de trabajo determinado en la lista desplegable para mostrar trabajos del tipo.
|
|
En el cuadro de búsqueda, busque un trabajo mediante el establecimiento de la condición de búsqueda correspondiente y haga clic en .
|
|
Haga clic en para actualizar manualmente la lista de trabajos. |
Descripción del permiso de ejecución del trabajo
Para un clúster de seguridad con autenticación de Kerberos habilitada, un usuario debe sincronizar un usuario de IAM antes de enviar un trabajo en la interfaz de usuario web de MRS. Una vez completada la sincronización, el sistema MRS genera un usuario con el mismo nombre de usuario IAM. Si un usuario tiene el permiso para enviar trabajos depende de la política de IAM vinculada al usuario durante la sincronización de IAM. Para obtener más información sobre la política de envío de trabajos, consulte Tabla 1 en Sincronización de usuarios de IAM a MRS.
Cuando un usuario envía un trabajo que implica el uso de recursos de un componente específico, como el acceso a directorios HDFS y tablas Hive, el usuario admin (Manager administrator) debe conceder el permiso correspondiente al usuario. A continuación, se detallan los pasos:
- Inicie sesión en Manager como usuario admin.
- Agregue el rol del componente cuyo permiso es requerido por el usuario. Para obtener más información, consulte Creación de un rol.
- Cambie el grupo de usuarios al que pertenece el usuario que envía el trabajo y agregue el nuevo rol de componente al grupo de usuarios. Para obtener más información, consulte Tareas relacionadas.
Después de modificar el rol de componente enlazado al grupo de usuarios al que pertenece el usuario, los permisos de rol tardan algún tiempo en surtir efecto.