Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.
Computação
Elastic Cloud Server
Bare Metal Server
Auto Scaling
Image Management Service
Dedicated Host
FunctionGraph
Cloud Phone Host
Huawei Cloud EulerOS
Redes
Virtual Private Cloud
Elastic IP
Elastic Load Balance
NAT Gateway
Direct Connect
Virtual Private Network
VPC Endpoint
Cloud Connect
Enterprise Router
Enterprise Switch
Global Accelerator
Gerenciamento e governança
Cloud Eye
Identity and Access Management
Cloud Trace Service
Resource Formation Service
Tag Management Service
Log Tank Service
Config
Resource Access Manager
Simple Message Notification
Application Performance Management
Application Operations Management
Organizations
Optimization Advisor
Cloud Operations Center
Resource Governance Center
Migração
Server Migration Service
Object Storage Migration Service
Cloud Data Migration
Migration Center
Cloud Ecosystem
KooGallery
Partner Center
User Support
My Account
Billing Center
Cost Center
Resource Center
Enterprise Management
Service Tickets
HUAWEI CLOUD (International) FAQs
ICP Filing
Support Plans
My Credentials
Customer Operation Capabilities
Partner Support Plans
Professional Services
Análises
MapReduce Service
Data Lake Insight
CloudTable Service
Cloud Search Service
Data Lake Visualization
Data Ingestion Service
GaussDB(DWS)
DataArts Studio
IoT
IoT Device Access
Outros
Product Pricing Details
System Permissions
Console Quick Start
Common FAQs
Instructions for Associating with a HUAWEI CLOUD Partner
Message Center
Segurança e conformidade
Security Technologies and Applications
Web Application Firewall
Host Security Service
Cloud Firewall
SecMaster
Anti-DDoS Service
Data Encryption Workshop
Database Security Service
Cloud Bastion Host
Data Security Center
Cloud Certificate Manager
Situation Awareness
Managed Threat Detection
Blockchain
Blockchain Service
Serviços de mídia
Media Processing Center
Video On Demand
Live
SparkRTC
Armazenamento
Object Storage Service
Elastic Volume Service
Cloud Backup and Recovery
Cloud Server Backup Service
Storage Disaster Recovery Service
Scalable File Service
Volume Backup Service
Data Express Service
Dedicated Distributed Storage Service
Containers
Cloud Container Engine
SoftWare Repository for Container
Application Service Mesh
Ubiquitous Cloud Native Service
Cloud Container Instance
Bancos de dados
Relational Database Service
Document Database Service
Data Admin Service
Data Replication Service
GeminiDB
GaussDB
Distributed Database Middleware
Database and Application Migration UGO
TaurusDB
Middleware
Distributed Cache Service
API Gateway
Distributed Message Service for Kafka
Distributed Message Service for RabbitMQ
Distributed Message Service for RocketMQ
Cloud Service Engine
EventGrid
Dedicated Cloud
Dedicated Computing Cluster
Aplicações de negócios
ROMA Connect
Message & SMS
Domain Name Service
Edge Data Center Management
Meeting
AI
Face Recognition Service
Graph Engine Service
Content Moderation
Image Recognition
Data Lake Factory
Optical Character Recognition
ModelArts
ImageSearch
Conversational Bot Service
Speech Interaction Service
Huawei HiLens
Developer Tools
SDK Developer Guide
API Request Signing Guide
Terraform
Koo Command Line Interface
Distribuição de conteúdo e computação de borda
Content Delivery Network
Intelligent EdgeFabric
CloudPond
Soluções
SAP Cloud
High Performance Computing
Serviços para desenvolvedore
ServiceStage
CodeArts
CodeArts PerfTest
CodeArts Req
CodeArts Pipeline
CodeArts Build
CodeArts Deploy
CodeArts Artifact
CodeArts TestPlan
CodeArts Check
Cloud Application Engine
MacroVerse aPaaS
KooPhone
KooDrive

Treinamento de modelos

Atualizado em 2024-09-18 GMT+08:00

Além de dados e algoritmos, os desenvolvedores gastam muito tempo configurando os parâmetros de treinamento do modelo. Os parâmetros de treinamento do modelo determinam a precisão e o tempo de convergência do modelo. A seleção de parâmetros depende muito da experiência dos desenvolvedores. A seleção inadequada de parâmetros afetará a precisão do modelo ou aumentará significativamente o tempo necessário para o treinamento do modelo.

Para simplificar o desenvolvimento de IA e melhorar a eficiência do desenvolvimento e o desempenho do treinamento, o ModelArts oferece gerenciamento de tarefas visualizadas, gerenciamento de recursos e gerenciamento de versões e realiza otimização de hiperparâmetros com base em aprendizado de máquina e aprendizado por reforço. Ele fornece políticas automáticas de ajuste de hiperparâmetros, como taxa de aprendizado e tamanho de lote, e integra modelos comuns.

Atualmente, quando a maioria dos desenvolvedores constrói modelos, os modelos geralmente têm dezenas de camadas ou até centenas de camadas e parâmetros de nível MB ou GB para atender aos requisitos de precisão. Como resultado, as especificações dos recursos de computação são extremamente altas, especialmente o poder de computação dos recursos de hardware, memória e ROM. As especificações de recursos no lado do dispositivo são estritamente limitadas. Por exemplo, o poder de computação no lado do dispositivo é de 1 TFLOPS, o tamanho da memória é de cerca de 2 GB e o espaço da ROM é de cerca de 2 GB, então o tamanho do modelo no lado do dispositivo deve ser limitado a 100 KB e o atraso de inferência deve ser limitado a 100 milissegundos.

Portanto, tecnologias de compressão com precisão de modelo sem perdas ou quase sem perdas, como poda, quantização e destilação de conhecimento, são usadas para implementar compressão e otimização automática de modelos e iteração automática de compressão e reciclagem de modelos para controlar a perda de precisão do modelo. A tecnologia de quantização de bits baixos, que elimina a necessidade de reciclagem, converte o modelo de um ponto flutuante de alta precisão para uma operação de ponto fixo. Várias tecnologias de compactação e otimização são usadas para atender aos requisitos leves dos recursos de hardware de dispositivos e de borda. A tecnologia de compactação do modelo reduz a precisão em menos de 1% em cenários específicos.

Quando o volume de dados de treinamento é grande, o treinamento do modelo de aprendizado profundo é demorado. Em tecnologia de visão computacional, ImageNet-1k (um conjunto de dados de classificação contendo 1.000 classes de imagens, conhecido como ImageNet) é um conjunto de dados comumente usado. Se você usar uma GPU P100 para treinar um modelo ResNet-50 no conjunto de dados, levará quase uma semana. Isso dificulta o rápido desenvolvimento de aplicações de aprendizado profundo. Portanto, a aceleração do treinamento de aprendizado profundo sempre foi uma preocupação importante para a academia e a indústria.

A aceleração do treinamento distribuído precisa ser considerada em termos de software e hardware. Um único método de otimização não pode atender às expectativas. Portanto, a otimização da aceleração distribuída é um projeto de sistema. A arquitetura de treinamento distribuído precisa ser considerada em termos de design de hardware e chip. Para minimizar atrasos de computação e comunicação, muitos fatores precisam ser considerados, incluindo especificações gerais de computação, largura de banda da rede, cache de alta velocidade, consumo de energia e dissipação de calor do sistema e a relação entre a taxa de transferência de comunicação e computação.

O design do software precisa combinar recursos de hardware de alto desempenho para usar totalmente a rede de hardware de alta velocidade e implementar comunicação distribuída de alta largura de banda e cache de dados local eficiente. Usando algoritmos de otimização de treinamento, como paralelo híbrido, compressão de gradiente e aceleração de convolução, o software e o hardware do sistema de treinamento distribuído podem ser eficientemente coordenados e otimizados de ponta a ponta, e a aceleração de treinamento pode ser implementada em um ambiente distribuído de vários hosts e cartões. O ModelArts oferece uma aceleração líder do setor de mais de 0,8 para o ResNet50 no conjunto de dados ImageNet no ambiente distribuído com milhares de hosts e cartões.

Para medir o desempenho de aceleração do aprendizado profundo distribuído, os dois indicadores principais a seguir são usados:

  • Taxa de transferência, ou seja, a quantidade de dados processados em uma unidade de tempo
  • Tempo de convergência, ou seja, o tempo necessário para atingir certa precisão

A taxa de transferência depende do hardware do servidor (por exemplo, mais chips de aceleração de IA com maior capacidade de processamento FLOPS e maior largura de banda de comunicação alcançam maior taxa de transferência) leitura e cache de dados, pré-processamento de dados, computação de modelos (por exemplo, seleção de algoritmos de convolução) e otimização de topologia de comunicação. Exceto a computação de baixo bits e a compactação de gradiente (ou parâmetro), a maioria das tecnologias melhora a taxa de transferência sem afetar a precisão do modelo. Para alcançar o menor tempo de convergência, você precisa otimizar a taxa de transferência e ajustar os parâmetros. Se os parâmetros não forem ajustados corretamente, a taxa de transferência não poderá ser otimizada. Se o tamanho do lote for definido para um valor pequeno, o desempenho paralelo do treinamento do modelo será relativamente ruim. Como resultado, a taxa de transferência não pode ser melhorada mesmo que o número de nós de computação seja aumentado.

Os usuários estão mais preocupados com o tempo de convergência. A estrutura MoXing implementa otimização de pilha completa e reduz significativamente o tempo de convergência do treinamento. Para leitura e pré-processamento de dados, o MoXing usa pipelines de entrada simultânea de vários níveis para evitar que I/Os de dados se tornem um gargalo. Em termos de computação de modelos, o MoXing fornece cálculo de precisão híbrida, que combina semiprecisão e precisão única para os modelos de camada superior e reduz a perda causada pelo cálculo de precisão por meio de dimensionamento adaptativo. Políticas de hiperparâmetro dinâmico (como momento e tamanho do lote) são usadas para minimizar o número de épocas necessárias para a convergência do modelo. MoXing também trabalha com servidores e bibliotecas de computação subjacentes da Huawei para melhorar ainda mais a aceleração distribuída.

Otimização de treinamento distribuído de alto desempenho do ModelArts

  • Precisão híbrida automática para utilizar totalmente os recursos de computação de hardware
  • Tecnologias de ajuste de hiperparâmetro dinâmico (tamanho dinâmico do lote, tamanho da imagem e momento)
  • Mesclagem e divisão automáticas do gradiente do modelo
  • Otimização de agendamento do operador de comunicação com base na computação adaptativa de bolhas da BP
  • Bibliotecas distribuídas de comunicação de alto desempenho (NStack e HCCL)
  • Modelo de dados distribuídos paralelo híbrido
  • Treinamento de compactação de dados e cache de vários níveis

Usamos cookies para aprimorar nosso site e sua experiência. Ao continuar a navegar em nosso site, você aceita nossa política de cookies. Saiba mais

Feedback

Feedback

Feedback

0/500

Conteúdo selecionado

Envie o conteúdo selecionado com o feedback