A refrigeração líquida para Data Centers, apesar de ser considerada – com razão – uma tecnologia emergente, na realidade não é nova.
Nos anos 60, os primeiros mainframes da IBM, e depois os supercomputadores Cray, já utilizavam refrigeração líquida. De facto, a compra de um sistema Cray incluía um técnico a tempo inteiro para a sua instalação, operação e manutenção.
Porque é que a IA está a acelerar a procura por refrigeração líquida
Hoje em dia, a IA generativa está a transformar a forma como os servidores e os Data Centers são desenhados. Os servidores de computação acelerada incluem agora entre duas e dezasseis GPU por servidor, para além de CPUs e até DPUs.
Estes servidores, otimizados para o treino de modelos de IA, consomem mais de 20 vezes a energia de um servidor padrão baseado numa CPU Intel… e geram 20 vezes mais calor por servidor.
Esta quantidade de calor faz com que só possam ser refrigerados a líquido. A maioria já vem de série com tubagens de entrada e saída para fazer circular o refrigerante.

Gerir o calor: potência, densidade e limites de design
As exigências térmicas por rack têm aumentado a cada nova geração de servidores acelerados por GPU. Quando uma rack está totalmente preenchida, os servidores atuais baseados na NVIDIA requerem 132 W por rack, e a densidade continua a crescer. A próxima geração – que se prevê chegar em menos de um ano – deverá atingir 240kW por rack.
O método de refrigeração dominante hoje é o direct-to-chip, ou refrigeração por placa fria (cold plate). No entanto, como o nome indica, este método apenas refrigera os chips, não os restantes componentes do chassis ou da rack.
Isto significa que, mesmo com refrigeração líquida, entre 20% e 30% da carga térmica total ainda tem de ser dissipada através de ar.
A refrigeração é uma arquitetura complexa
Tanto nas grandes empresas como em operadores de Data Centers já consolidados, é pouco provável que exista experiência interna suficiente para desenhar e implementar sistemas híbridos (líquido + ar) com estas densidades extremas. É necessária experiência especializada para projetar, adquirir, implementar, operar e manter estes sistemas.
Os sistemas direct-to-chip exigem dois circuitos separados: um para a sala de TI e outro para a dissipação de calor. As unidades de distribuição de refrigeração (CDU) ligam ambos os circuitos.
Ao conceber estes sistemas, é essencial escolher um parceiro com experiência em toda a arquitetura: coletores, tubagens, CDUs, chillers, bombas e armários. Todos estes componentes têm de funcionar como um sistema integrado, com compatibilidade, controlos unificados e fine-tuning detalhado do desempenho.
Idealmente, as empresas devem escolher fornecedores com conhecimento comprovado em tubagens, dinâmica de fluidos, pressão e caudal e que, além disso, ofereçam garantias e certificações dos fabricantes de GPU.
O papel da simulação e do software
Tendo em conta as densidades térmicas extremas, uma abordagem de tentativa e erro apenas atrasará o projeto e reduzirá as probabilidades de sucesso. É, por isso, aconselhável escolher um parceiro que utilize modelação com gémeo digital e simulação para validar virtualmente o desenho do sistema de refrigeração antes da implementação.
A prioridade deve ser dada a fornecedores que colaboram diretamente com fabricantes de GPU – e que realizaram testes em laboratório ou têm implementações comprovadas. Alguns disponibilizam ainda sistemas de refrigeração pré-concebidos e pré-fabricados que aceleram a implementação e reduzem riscos.
O tempo de inatividade não é uma opção
Com estas densidades, mesmo uma breve interrupção no fluxo de refrigerante pode provocar thermal throttling ou sobreaquecimento numa questão de segundos. As CDUs devem incluir redundância: bombas duplas e fontes de alimentação redundantes devem ser padrão.
As UPS devem alimentar as CDUs para garantir continuidade durante a transição para sistemas de backup ou geradores; e também é essencial um software de deteção de fugas, uma vez que até a mais mínima fuga pode deitar abaixo um servidor ou um cluster.
A otimização também exige IA
Uma vez em funcionamento, o sistema de refrigeração líquida necessita de ajustes contínuos. A precisão é importante: até mesmo pequenos aumentos de temperatura podem degradar o desempenho das GPU e desacelerar o treino dos modelos de IA.
O software baseado em IA pode ajustar dinamicamente parâmetros do sistema – temperatura da água, caudal, fluxo de ar – em tempo real. Estes sistemas podem mesmo aprender com os dados operacionais para otimizar continuamente o desempenho.
Escolha fornecedores preparados para o futuro
O ritmo de evolução das GPU está a pressionar os fornecedores de refrigeração. Ao selecionar um parceiro, pergunte pelo seu roadmap tecnológico: conseguirá suportar as futuras gerações de GPU com densidades térmicas ainda mais elevadas?
A refrigeração líquida continua a ser classificada como “emergente”, mas está a tornar-se rapidamente uma infraestrutura essencial, pelo que as empresas que pretendam escalar a IA nas suas operações devem estabelecer parcerias com fornecedores capazes de responder às exigências atuais e futuras.

Adicione um comentário