Envio de um trabalho de treinamento (nova versão)
Você pode usar o Toolkit do PyCharm da versão mais recente para enviar rapidamente o código de treinamento desenvolvido localmente ao ModelArts para treinamento.
Pré-requisitos
- Existe um projeto de código de treinamento no PyCharm local.
- Você criou um bucket e pastas no OBS para armazenar conjuntos de dados e modelos treinados. Os dados usados pelo trabalho de treinamento foram carregados no OBS.
- A credencial foi configurada. Para obter detalhes, consulte Uso de chaves de acesso para logon.
- O Toolkit do PyCharm da versão mais recente está disponível para enviar um trabalho de treinamento apenas da nova versão.
Configurar parâmetros de trabalhos de treinamento
- No PyCharm abra o projeto de código de treinamento e o arquivo de inicialização de treinamento e escolha ModelArts > Training Job > New... na barra de menus.
Figura 1 Editar configuração do trabalho de treinamento
- Na caixa de diálogo exibida, configure os parâmetros do trabalho de treinamento. Para mais detalhes, consulte Tabela 1.
Tabela 1 Parâmetros do trabalho de treinamento Parâmetro
Descrição
Job Name
Nome de um trabalho de treinamento
O sistema gera automaticamente um nome. Você pode renomeá-lo com base nas seguintes regras de nomeação:
- O nome contém 1 a 64 caracteres.
- Letras, dígitos, hifens (-) e sublinhados (_) são permitidos.
Job Description
Breve descrição de um trabalho de treinamento
Algorithm Source
Fonte do algoritmo de treinamento. As opções são Frequently-used e Custom.
Frequently-used refere-se aos mecanismos de IA usados com frequência suportados pelo Gerenciamento de treinamento do ModelArts.
Se o mecanismo de IA que você usa não estiver na lista suportada, é aconselhável criar um trabalho de treinamento usando uma imagem personalizada.
AI Engine
Selecione o mecanismo de IA e a versão usada no código. Os mecanismos de IA suportados são os mesmos das estruturas usadas com as estruturas frequentemente usadas e apoiadas por trabalhos de treinamento no console de gerenciamento do ModelArts.
Boot File Path
Arquivo de inicialização de treinamento. O arquivo de inicialização selecionado deve ser um arquivo no projeto de treinamento atual do PyCharm. Este parâmetro será exibido se Algorithm Source estiver definida como Frequently-used.
Code Directory
Diretório de código de treinamento. O sistema define automaticamente esse parâmetro para o diretório onde o arquivo de inicialização de treinamento está localizado. Você pode alterar o valor do parâmetro para um diretório que está no projeto atual e contém o arquivo de inicialização.
Se a origem do algoritmo for uma imagem personalizada e o código de treinamento tiver sido construído na imagem, esse parâmetro poderá ser deixado em branco.
Image Path(optional)
URL da imagem do SWR
Boot Command
Comando para iniciar um trabalho de treinamento, por exemplo, bash /home/work/run_train.sh python {Python boot file and parameters}. Este parâmetro é exibido se Algorithm Source estiver definida como Custom.
Se o comando não contiver o parâmetro --data_url ou --train_url, a ferramenta adicionará automaticamente os dois parâmetros ao final do comando ao enviar o trabalho de treinamento. Os dois parâmetros correspondem ao caminho OBS para armazenar dados de treinamento e ao caminho do OBS para armazenar saída de treinamento, respectivamente.
Data OBS Path
Caminho do OBS para armazenar dados de treinamento, por exemplo, /test-modelarts2/mnist/dataset-mnist/, no qual test-modelarts2 indica um nome de bucket.
Training OBS Path
Caminho do OBS. Um diretório é criado automaticamente no caminho para armazenar um modelo treinado e logs de treinamento.
Running Parameters
Parâmetros de execução. Se você quiser adicionar alguns parâmetros de execução ao seu código, adicione-os aqui. Separe vários parâmetros de execução com ponto e vírgula (;), por exemplo, key1=value1;key2=value2. Este parâmetro pode ser deixado em branco.
Specifications
Tipo de recursos utilizados para treinamento. Atualmente, pools de recursos públicos e pools de recursos dedicados são suportados.
As especificações do pool de recursos dedicados são identificadas pelo pool de recursos dedicados. As especificações de pool de recursos dedicados são exibidas apenas para usuários que compraram pools de recursos dedicados.
Compute Nodes
Número de nós de computação. Se este parâmetro for definido como 1, o sistema será executado no modo autônomo. Se este parâmetro for definido como um valor maior que 1, o modo de computação distribuída é usado em segundo plano.
Available/Total Nodes
Quando Specifications é definido como um pool de recursos dedicados, o número de nós disponíveis e o número total de nós são exibidos. O valor de Compute Nodes não pode exceder o número de nós disponíveis.
Figura 2 Configurar o parâmetro do trabalho de treinamento (pool de recursos públicos)
Figura 3 Configurar o parâmetro de trabalho de treinamento (pool de recursos dedicados)
Figura 4 Configurar o parâmetro do trabalho de treinamento (imagem personalizada)
- Depois de definir os parâmetros, clique em Apply and Run. Em seguida, o código local é automaticamente carregado para a nuvem e o treinamento é iniciado. O status de execução do trabalho de treinamento é exibido na área Training Log em tempo real. Se informações semelhantes a Current training job status: Successful forem exibidas no log de treinamento, o trabalho de treinamento foi executado com êxito.
- Depois que você clicar em Apply and Run, o sistema executará automaticamente o trabalho de treinamento. Para interromper o trabalho de treinamento, escolha ModelArts > Training Job > Stop na barra de menus.
- Se você clicar em Apply, o trabalho não será iniciado diretamente e as configurações do trabalho de treinamento serão salvas. Para iniciar o trabalho, clique em Apply and Run.
Figura 5 Exemplo de log de treinamento