O que acontece quando não podemos mais construir data centers de IA maiores?

AI Data Center

Claro, começamos a unir enormes supercomputadores de outros supercomputadores menores

Pontos principais:

  • A indústria de IA pode precisar de supercomputadores distribuídos devido a limitações de energia.
  • A distribuição de cargas de trabalho em múltiplos data centers não é nova, mas enfrenta desafios únicos.
  • A infraestrutura para conectar data centers já existe, mas precisa ser expandida.
  • A latência e a largura de banda são problemas significativos para redes de data centers.
  • A homogeneidade dos data centers é crucial para evitar gargalos.

Com um avanço na aprendizagem de máquinas e a energia se tornando um fator limitante, o crescimento contínuo da IA pode depender de um novo tipo de supercomputador, que abrange países inteiros e possivelmente até continentes.

A ideia aqui é bastante direta. Se não for mais prático construir data centers maiores, comece a unir os que você já tem.

Isso certamente parece ser para onde a indústria está se dirigindo. “A distribuição é inevitável”, disse Sameh Boujelbene, analista da Dell’Oro, ao The Register.

Ela não é a única a pensar assim. Gilad Shainer, vice-presidente sênior de redes na Nvidia, acredita que “na próxima geração, você verá a capacidade de realmente construir esses data centers remotos juntos e formar um grande data center virtual único”.

Distribuir grandes cargas de trabalho em várias máquinas não é novidade no espaço de computação de alto desempenho. Isso é essencialmente como todo supercomputador moderno, IA ou científico, funciona, usando interconexões de alta velocidade, como o InfiniBand da Nvidia ou o Slingshot da HPE, para unir milhares de nós.

Em muitos aspectos, a distribuição de cargas de trabalho em múltiplos data centers é uma extensão de um modelo existente, embora com seu próprio conjunto único de desafios a superar.

A boa notícia é que, pelo menos em algum grau, a infraestrutura necessária para unir data centers já existe. As interconexões de data centers de alta velocidade (DCI) não são novas e são amplamente utilizadas por grandes provedores de nuvem.

Para cargas de trabalho científicas mais tradicionais, a Nvidia, e antes dela a Mellanox, ofereceram sua linha de produtos MetroX, que usa multiplexação por divisão de onda densa para conectar o InfiniBand em vários data centers em um alcance de até 40 quilômetros.

Infelizmente, a última geração desses dispositivos foi lançada no final de 2022, apenas algumas semanas antes de o ChatGPT desencadear a corrida do ouro da IA. Como tal, estava mais voltado para recuperação de desastres e alta disponibilidade do que o tipo de treinamento de IA em grande escala que se proliferou nos anos desde o debut do chatbot.

De acordo com Shainer, a pesquisa já está em andamento para estender esse alcance de dezenas de quilômetros para milhares, o que certamente ajudaria a abordar os desafios de energia, permitindo que data centers em diferentes regiões funcionassem como um só.

No entanto, a natureza das cargas de trabalho de IA e as enormes distâncias envolvidas trazem seus próprios desafios.

Equilibrando latência e largura de banda

Como regra geral, as cargas de trabalho de IA amam largura de banda e odeiam latência. Dentro do data center, grande parte do desafio gira em torno da perda de pacotes ou conexões travadas, deixando a computação ociosa enquanto os dados são retransmitidos. De acordo com a AMD, em média, 30% do tempo de treinamento é gasto esperando que a rede acompanhe.

Várias tecnologias foram desenvolvidas para superar essas limitações. O InfiniBand da Nvidia é uma delas, mas unidades de processamento de dados especializadas e switches otimizados para IA também surgiram para enfrentar esses desafios ao trabalhar com Ethernet.

Quando se trata de redes de data center para data center, a latência é um fato incontornável da vida. A luz viaja muito rapidamente através de fibras de vidro – cerca de 4,9 microsegundos por quilômetro. Isso é bastante rápido, mas em um alcance de 1.000 quilômetros, resulta em uma viagem de ida e volta de quase 10 milissegundos antes de levar em conta o overhead de protocolo e processamento. Nesses tipos de distâncias, as retransmissões são muito mais problemáticas.

Dependendo da largura de banda e das distâncias envolvidas, repetidores e amplificadores podem ser necessários para aumentar o sinal, o que pode exacerbar o problema. No entanto, há tecnologias emergentes no horizonte que poderiam ajudar a abordar isso, disse Rodney Wilson, tecnólogo-chefe de redes de pesquisa do fornecedor de óptica Ciena, ao El Reg.

Uma delas é a fibra de núcleo oco, que deve ajudar a reduzir o número de repetidores necessários. A desvantagem da fibra de núcleo oco é que ainda é relativamente nova e há muita fibra escura no chão.

A latência não é o único problema; a largura de banda é outra questão. Dentro do data center, as redes de escala usadas para unir os servidores GPU geralmente apresentam oito links de 400Gbps – um por GPU – para uma largura de banda agregada de 3,2 Tbps. Se você tentasse estender essa rede de escala sobre o DCI, precisaria de múltiplos petabits de largura de banda agregada.

As ópticas modernas usadas em redes de transporte agora suportam larguras de banda de até 1,6 Tbps por comprimento de onda, disse Wilson. E com múltiplos comprimentos de onda, você está falando de um pacote bastante robusto de fibras.

A boa notícia é que muitos desses desafios de latência e largura de banda podem ser mitigados por meio da otimização de software, disse Shainer. Dependendo de como você distribui a carga de trabalho entre os data centers, é possível ocultar a latência enquanto minimiza a largura de banda necessária.

Se, por exemplo, você quisesse executar uma carga de trabalho de treinamento em dois clusters fisicamente distantes, distribuiria a carga de trabalho de maneira que os cálculos fossem concluídos nos data centers e enviasse esses dados através da interconexão de data centers apenas ao combinar os resultados, explicou ele.

“A maneira como você executa o trabalho determina quanta largura de banda você precisa entre os data centers”, acrescentou. “Pode ser 10% do total [largura de banda da rede de escala]… Depende de como você estrutura a rede.”

Realidades práticas

Embora relativamente simples no conceito, o treinamento multi-data center também enfrenta um número justo de obstáculos que precisam ser superados.

Idealmente, Shainer explica, você deseja que seus data centers sejam homogêneos – ou seja, eles devem usar a mesma arquitetura de computação – para evitar gargalos.

A Nvidia já está preparando o terreno para isso há algum tempo com seus designs de referência DGX e SuperPod. Em teoria, esses devem ajudar os operadores de data centers a evitar os problemas de lidar com arquiteturas de computação heterogêneas.

No entanto, se manter múltiplos data centers de última geração não for prático e você for forçado a combinar gerações mais antigas de computação com novas, Shainer observa que ainda pode ser feito; simplesmente não será tão eficiente. “A geração mais antiga determinará o desempenho da geração mais nova.”

Provavelmente não serão apenas dois data centers compartilhando a carga. Para redundância e diversidade de roteamento, pode ser necessário interconectar múltiplos data centers em uma rede mesh.

Isso, explica Wilson, ocorre porque, ao longo dessas grandes distâncias, o tráfego fluirá sobre redes de transporte, que podem ser interrompidas por vários fenômenos.

“Eu estaria procurando uma infraestrutura de malha inteligente que forneça múltiplos caminhos e, em seguida, uma sobreposição de software que forneça o tipo de rede adaptativa que permite um tipo de controle desses fluxos”, explicou ele.

Idealmente, acrescenta Wilson, a rede seria ajustada proativamente pelas máquinas ou pelo aplicativo, em vez de depender do roteamento reativo. “Quando há um problema na rede, se for uma restrição de fluxo ou algum outro impedimento, ele deve ser adaptável o suficiente para autocurar, autodetectar, autocurar e reencaminhar ou reequilibrar de acordo.”

Uma questão de tempo

A necessidade de distribuir cargas de trabalho de IA em múltiplos data centers pode ser inevitável; a questão permanece em que ponto isso será necessário.

Embora a energia limite quantas GPUs podem ser empacotadas em um data center, ela não limita necessariamente o tamanho de um modelo que pode ser treinado, apenas a rapidez com que isso pode ser feito. Supondo que você não esteja limitado pela memória, você pode treinar um modelo enorme com cinco figuras de GPUs; apenas levará mais tempo.

Isso pode parecer o curso natural para esses mega clusters. No entanto, à medida que os clusters crescem, eles também se tornam mais problemáticos. Em clusters realmente grandes, o tempo médio para falhas (MTTF) pode ser bastante curto, resultando em maiores interrupções à medida que o cluster cresce.

Ao treinar o Llama 405B, a Meta experimentou uma falha a cada três horas, com mais de três quartos relacionados a problemas de hardware e 58% diretamente atribuídos a problemas com GPUs.

Portanto, quanto mais rápido você puder concluir o trabalho, melhor, pois isso minimiza a chance de falha antes do próximo ponto de verificação.

Infelizmente, com modelos de IA crescendo em um ritmo de 4x-5x por ano e GPUs exigindo mais energia para alcançar o desempenho geracional, parece ser apenas uma questão de tempo antes que esses sistemas ultrapassem os limites de um único data center.

Fonte: The Register

Publicar comentário