Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.
Atualizado em 2024-11-28 GMT+08:00

DRF

Dominant Resource Fairness (DRF) é um algoritmo de agendamento baseado no recurso dominante de um grupo de contêineres. O agendamento DRF pode ser usado para aprimorar a taxa de transferência de serviço de um cluster, reduzir o tempo geral de execução do serviço e melhorar o desempenho da execução do serviço. É adequado para treinamento em lote de IA e trabalhos de Big Data.

Pré-requisitos

Contexto

Em serviços reais, recursos de cluster limitados são frequentemente alocados a vários usuários. Cada usuário tem os mesmos direitos para obter recursos, mas o número de recursos necessários pode ser diferente. É fundamental alocar recursos de forma justa para cada usuário. Um algoritmo de agendamento comum é o max-min fairness share, que aloca recursos para atender aos requisitos mínimos dos usuários, tanto quanto possível e, em seguida, aloca de forma justa os recursos restantes. As regras são as seguintes:

  1. Os recursos são alocados em ordem de demanda crescente.
  2. Nenhuma fonte obtém um compartilhamento de recursos maior do que sua demanda.
  3. Fontes com demandas insatisfeitas obtêm uma parcela igual do recurso.

O algoritmo max-min fairness aplica-se ao cenário de recurso único, no qual todos os trabalhos estão solicitando os mesmos recursos. No entanto, em situações reais, vários recursos estão envolvidos. Por exemplo, recursos de CPU, memória e GPU são solicitados para alocação. O DRF pode ser usado para resolver o problema anterior. O DRF pode ser considerado como uma versão geral do algoritmo max-min fairness e suporta alocação justa de vários tipos de recursos para que o recurso dominante de cada usuário atenda ao requisito de max-min fairness.

O valor de compartilhamento de cada recurso de tarefa é calculado usando a seguinte fórmula:

Compartilhamento = total de recursos solicitados/recursos do cluster

Se uma tarefa envolve vários recursos, o recurso com o maior valor de compartilhamento é o recurso dominante. O valor de compartilhamento do recurso dominante será usado no agendamento baseado em prioridade.

Por exemplo, existem duas cargas de trabalho, tarefa 1 e tarefa 2. A figura a seguir mostra os recursos solicitados pelas duas tarefas. Após o cálculo do DRF, o recurso dominante da tarefa 1 é a memória e seu valor de compartilhamento é 0,4; o recurso dominante da tarefa 2 é a CPU e seu valor de compartilhamento é 0,5. Como a parcela de recurso dominante da tarefa 1 é menor que a da tarefa 2, a tarefa 1 tem precedência sobre a tarefa 2 no agendamento de acordo com a política de max-min fairness.

Figura 1 Agendamento DRF

Procedimento

Após a instalação do Volcano, você pode ativar ou desativar o agendamento DRF na página Scheduling Configuration. Essa função está ativada por padrão.

  1. Efetue logon no console do CCE.
  2. Clique no nome do cluster para acessar o console do cluster. Escolha Settings no painel de navegação e clique na guia Scheduling Configuration.
  3. No painel AI task performance enhanced scheduling, selecione se deseja ativar o DRF.

    Essa função ajuda a aprimorar a taxa de transferência de serviço do cluster e melhorar o desempenho da execução do serviço.

  4. Clique em Confirm.