Consulta de detalles sobre un grupo de recursos
Página de detalles del grupo de recurso
- Inicie sesión en la consola de ModelArts. En el panel de navegación, seleccione Dedicated Resource Pools > Elastic Cluster.
- Haga clic en junto al tipo o estado del grupo de recursos en el encabezado de la tabla. En la esquina superior derecha de la lista, seleccione Name o Resource ID para filtrar los grupos de recursos. Para obtener el ID del recurso, acceda a la página Billing Center > Orders > My Orders y haga clic en Details en la columna Operation del orden de destino.
- En la lista del grupo de recursos, haga clic en un grupo de recursos para ir a su página de detalles y ver su información.
- Si hay varios grupos de recursos, haga clic en en la esquina superior izquierda de la página de detalles de un grupo de recursos para cambiar de grupo de recursos. Haga clic en More en el extremo superior derecho para realizar operaciones como cambiar el tamaño o eliminar el grupo de recursos. Las operaciones disponibles varían según el grupo de recursos.
- En el área Network de Basic Information, puede hacer clic en el número de grupos de recursos asociados para ver los grupos de recursos asociados.
- En el área de información extendida, puede ver la información de monitoreo, trabajos, nodos, especificaciones y eventos. Para obtener más información, véase la siguiente sección.
Consulta de trabajos en un grupo de recursos
En la página de detalles del grupo de recursos, haga clic en Jobs. Puede ver todos los trabajos que se ejecutan en el grupo de recursos. Si un trabajo está en cola, puede ver su posición en cola.
Solo se pueden ver los trabajos de entrenamiento.
Consulta de eventos de grupo de recursos
En la página de detalles del grupo de recursos, haga clic en Events. Puede ver todos los eventos del grupo de recursos. La causa de un evento es PoolStatusChange o PoolResourcesStatusChange.
En la lista de eventos, haga clic en a la derecha de Event Type para filtrar eventos.
- Cuando un grupo de recursos comienza a crearse o se vuelve anormal, el estado del grupo de recursos cambia y el cambio se registra como un evento.
- Cuando cambia la cantidad de nodos disponibles o anormales o en proceso de creación o eliminación, cambia el estado del nodo del grupo de recursos y el cambio se registrará como un evento.
Consulta de nodos de grupo de recursos
En la página de detalles del grupo de recursos, haga clic en Nodes. Puede ver todos los nodos del grupo de recursos y el uso de recursos de cada nodo.
Algunos recursos están reservados para componentes de clúster. Por lo tanto, CPUs (Available/Total) no indica la cantidad de recursos físicos en el nodo. Solo muestra la cantidad de recursos que pueden ser utilizados por los servicios. Los núcleos de CPU se miden en milicores, y 1000 milicores equivalen a 1 núcleo físico.
- Reemplazo de un nodo:
En la ficha Nodes, localice el nodo que se va a reemplazar. En la columna Operation, haga clic en Replace. No se cobran tarifas por esta operación.
Verifique los registros de reemplazo de nodos en la página Records. Running indica que el nodo se está reemplazando. Después del reemplazo, puede verificar el nuevo nodo en la lista de nodos.
El reemplazo no puede durar más de 24 horas. Si no se encuentra ningún recurso adecuado después de que se agote el tiempo de espera del reemplazo, el estado cambia a Failed. Pase el ratón sobre para verificar la causa de la falla.
- La cantidad de reemplazos por día no puede superar el 20 % del total de nodos en el grupo de recursos. La cantidad de nodos que se reemplazarán no puede superar el 5 % del total de nodos en el grupo de recursos.
- Asegúrese de que haya recursos de nodo inactivos. De lo contrario, el reemplazo puede fallar.
- Si hay nodos en el estado Resetting en los registros de operación, los nodos del grupo de recursos no se pueden reemplazar.
- Restablecimiento de un nodo
En la ficha Nodes, localice el nodo que desea restablecer. Haga clic en Reset en la columna Operation para restablecer un nodo. También puede seleccionar varios nodos y hacer clic en Reset para restablecer varios nodos.
Configure los parámetros descritos en la siguiente tabla.
Tabla 1 Parámetros Parámetro
Descripción
Operating System
Seleccione un SO del cuadro de lista desplegable.
Configuration Mode
Seleccione un modo de configuración para restablecer el nodo.
- By node percentage: la proporción máxima de nodos que se pueden restablecer si hay varios nodos en la tarea de restablecimiento
- By node quantity: el número máximo de nodos que se pueden restablecer si hay varios nodos en la tarea de restablecimiento
Verifique los registros de reinicio del nodo en la página Records. Si se está restableciendo el nodo, su estado será Resetting. Una vez finalizado el restablecimiento, el estado del nodo cambia a Available. El restablecimiento de un nodo no se cobrará.
Figura 3 Restablecimiento de un nodo
- El restablecimiento de un nodo afectará a los servicios en ejecución.
- Solo se pueden restablecer los nodos en estado Available.
- Un nodo singular puede estar en una sola tarea de restablecimiento a la vez. No se pueden entregar varias tareas de restablecimiento al mismo nodo a la vez.
- Si hay nodos en estado Replacing en los registros de operación, los nodos del grupo de recursos no se pueden restablecer.
- Cuando se está actualizando el controlador de un grupo de recursos, los nodos de este grupo de recursos no se pueden restablecer.
- Para las especificaciones de GPU y NPU, después de reiniciar el nodo, se puede actualizar el controlador del nodo. Espere pacientemente.
Figura 4 Nodos
Figura 5 Registros de operaciones
- Eliminación, cancelación de suscripción o lanzamiento de un nodo
- Para un grupo de recursos de pago por uso, haga clic en Delete en la columna Operation.
Para eliminar nodos por lotes, active las casillas de verificación situadas junto a los nombres de nodo y haga clic en Delete.
- Para un grupo de recursos anual/mensual cuyos recursos no han expirado, haga clic en Unsubscribe en la columna Operation.
- Para un grupo de recursos anual/mensual cuyos recursos han expirado (en el período de gracia), haga clic en Release en la columna Operation.
Si el botón para eliminar está disponible para un nodo anual/mensual, el nodo es un nodo de inventario, haga clic en Delete.
- Antes de eliminar, cancelar la suscripción o lanzar un nodo, asegúrese de que no hay trabajos en ejecución en este nodo. De lo contrario, los trabajos se interrumpirán.
- Elimine, cancele la suscripción o lance los nodos anormales en un grupo de recursos y agregue nodos nuevos para su sustitución.
- Si solo hay un nodo, no se puede eliminar, cancelar o lanzar.
- Para un grupo de recursos de pago por uso, haga clic en Delete en la columna Operation.
Consulta de especificaciones de grupo de recursos
En la página de detalles del grupo de recursos, haga clic en Specifications. Puede ver las especificaciones utilizadas por el grupo de recursos y el número de cada especificación.
Consulta de información de control de grupo de recursos
En la página de detalles del grupo de recursos, haga clic en Monitoring. Se muestra el uso de recursos, incluidas las CPU usadas, el uso de memoria y la capacidad de disco disponible del grupo de recursos. Si se utilizan aceleradores de IA en el grupo de recursos, también se muestra la información de monitoreo de GPU y NPU.
Consulta de etiquetas
Puede agregar etiquetas a un grupo de recursos para una búsqueda rápida.
En la página de detalles del grupo de recursos, haga clic en Tags. Puede ver, agregar, modificar y eliminar etiquetas de un grupo de recursos. Para obtener más información sobre cómo utilizar etiquetas, véase ¿Cómo utiliza ModelArts las etiquetas para gestionar recursos por grupo?
Puede agregar hasta 20 etiquetas.