Porque é que a refrigeração líquida para Data Centers de IA é mais difícil do que parece

A refrigeração líquida para Data Centers, apesar de ser considerada – com razão – uma tecnologia emergente, na realidade não é nova.

Nos anos 60, os primeiros mainframes da IBM, e depois os supercomputadores Cray, já utilizavam refrigeração líquida. De facto, a compra de um sistema Cray incluía um técnico a tempo inteiro para a sua instalação, operação e manutenção.

Porque é que a IA está a acelerar a procura por refrigeração líquida

Hoje em dia, a IA generativa está a transformar a forma como os servidores e os Data Centers são desenhados. Os servidores de computação acelerada incluem agora entre duas e dezasseis GPU por servidor, para além de CPUs e até DPUs.

Estes servidores, otimizados para o treino de modelos de IA, consomem mais de 20 vezes a energia de um servidor padrão baseado numa CPU Intel… e geram 20 vezes mais calor por servidor.

Esta quantidade de calor faz com que só possam ser refrigerados a líquido. A maioria já vem de série com tubagens de entrada e saída para fazer circular o refrigerante.

Gerir o calor: potência, densidade e limites de design

As exigências térmicas por rack têm aumentado a cada nova geração de servidores acelerados por GPU. Quando uma rack está totalmente preenchida, os servidores atuais baseados na NVIDIA requerem 132 W por rack, e a densidade continua a crescer. A próxima geração – que se prevê chegar em menos de um ano – deverá atingir 240kW por rack.

O método de refrigeração dominante hoje é o direct-to-chip, ou refrigeração por placa fria (cold plate). No entanto, como o nome indica, este método apenas refrigera os chips, não os restantes componentes do chassis ou da rack.

Isto significa que, mesmo com refrigeração líquida, entre 20% e 30% da carga térmica total ainda tem de ser dissipada através de ar.

A refrigeração é uma arquitetura complexa

Tanto nas grandes empresas como em operadores de Data Centers já consolidados, é pouco provável que exista experiência interna suficiente para desenhar e implementar sistemas híbridos (líquido + ar) com estas densidades extremas. É necessária experiência especializada para projetar, adquirir, implementar, operar e manter estes sistemas.

Os sistemas direct-to-chip exigem dois circuitos separados: um para a sala de TI e outro para a dissipação de calor. As unidades de distribuição de refrigeração (CDU) ligam ambos os circuitos.

Ao conceber estes sistemas, é essencial escolher um parceiro com experiência em toda a arquitetura: coletores, tubagens, CDUs, chillers, bombas e armários. Todos estes componentes têm de funcionar como um sistema integrado, com compatibilidade, controlos unificados e fine-tuning detalhado do desempenho.

Idealmente, as empresas devem escolher fornecedores com conhecimento comprovado em tubagens, dinâmica de fluidos, pressão e caudal e que, além disso, ofereçam garantias e certificações dos fabricantes de GPU.

O papel da simulação e do software

Tendo em conta as densidades térmicas extremas, uma abordagem de tentativa e erro apenas atrasará o projeto e reduzirá as probabilidades de sucesso. É, por isso, aconselhável escolher um parceiro que utilize modelação com gémeo digital e simulação para validar virtualmente o desenho do sistema de refrigeração antes da implementação.

A prioridade deve ser dada a fornecedores que colaboram diretamente com fabricantes de GPU – e que realizaram testes em laboratório ou têm implementações comprovadas. Alguns disponibilizam ainda sistemas de refrigeração pré-concebidos e pré-fabricados que aceleram a implementação e reduzem riscos.

O tempo de inatividade não é uma opção

Com estas densidades, mesmo uma breve interrupção no fluxo de refrigerante pode provocar thermal throttling ou sobreaquecimento numa questão de segundos. As CDUs devem incluir redundância: bombas duplas e fontes de alimentação redundantes devem ser padrão.

As UPS devem alimentar as CDUs para garantir continuidade durante a transição para sistemas de backup ou geradores; e também é essencial um software de deteção de fugas, uma vez que até a mais mínima fuga pode deitar abaixo um servidor ou um cluster.

A otimização também exige IA

Uma vez em funcionamento, o sistema de refrigeração líquida necessita de ajustes contínuos. A precisão é importante: até mesmo pequenos aumentos de temperatura podem degradar o desempenho das GPU e desacelerar o treino dos modelos de IA.

O software baseado em IA pode ajustar dinamicamente parâmetros do sistema – temperatura da água, caudal, fluxo de ar – em tempo real. Estes sistemas podem mesmo aprender com os dados operacionais para otimizar continuamente o desempenho.

Escolha fornecedores preparados para o futuro

O ritmo de evolução das GPU está a pressionar os fornecedores de refrigeração. Ao selecionar um parceiro, pergunte pelo seu roadmap tecnológico: conseguirá suportar as futuras gerações de GPU com densidades térmicas ainda mais elevadas?

A refrigeração líquida continua a ser classificada como “emergente”, mas está a tornar-se rapidamente uma infraestrutura essencial, pelo que as empresas que pretendam escalar a IA nas suas operações devem estabelecer parcerias com fornecedores capazes de responder às exigências atuais e futuras.

Adicione um comentário

Todos os campos são obrigatórios.