Indice degli argomenti
- Perché l’AI cambia le esigenze di raffreddamento
- Perché il raffreddamento ad aria non basta più
- Implementare il Direct Liquid Cooling su larga scala
- Cosa potrebbe andare storto con il raffreddamento a liquido per i data center AI?
- 1. Possibile corrosione e danni al server
- · Tipi di fluidi
- · Additivi e materiali
- · Nuovi fluidi che fanno il proprio ingresso sul mercato
- 2. Problemi su garanzie e SLA (Service Level Agreement)
- 3. Mancato risparmio energetico
- La soluzione: l’approccio end-to-end al raffreddamento a liquido garantito da un partner affidabile
- Motivair by Schneider Electric: soluzioni progettate per AI, HPC e carichi di lavoro GPU ad alta densità
Perché l’AI cambia le esigenze di raffreddamento
La crescita del calcolo accelerato da GPU (Graphics Processing Unit) che alimenta i carichi di lavoro AI sta cambiando l’architettura dei data center. Il consumo energetico di questi chip è significativamente superiore rispetto alle tradizionali CPU (Central Processing Unit). Per molti anni i server sono stati progettati per CPU che consumavano circa 150 W, invece i chip di oggi di Nvidia Blackwell si attestano sui 1.000-1.400 W.
Questo sta facendo aumentare una metrica comune nel nostro settore: il consumo energetico per rack. I data center tradizionali hanno un fabbisogno tra i 10kW e i 20kW per rack. Gli ultimi design presentati da NVIDIA consumano 142kW per rack e la stessa NVIDIA ha di recente dichiarato che presto arriverà a 1 MW per rack.
Perché il raffreddamento ad aria non basta più
Fornire così tanta energia ai data center AI è una sfida, che si può vincere adottando componenti adeguate. Tuttavia, questa energia si trasforma in una quantità di calore tale che non si può rimuovere efficacemente con i tradizionali sistemi di raffreddamento ad aria. Occorre ricorrere al raffreddamento a liquido. Ne esistono varie tipologie, ma ad oggi il metodo preferito è il Direct Liquid Cooling, DLC, noto anche come “direct to chip”.
Questa tecnologia è in uso da anni nei supercomputer: Motivair by Schneider Electric è stata pioniera nelle soluzioni DLC per oltre un decennio e oggi può sfruttare la competenza maturata negli ambienti HPC anche per il raffreddamento dei data center AI ad alta densità.
Implementare il Direct Liquid Cooling su larga scala
Tuttavia, implementare il Direct Liquid Cooling su larga scala nei data center AI rappresenta una novità e introduce ulteriore complessità in un ambiente già di per sé complesso. Il liquid cooling non è una tecnologia semplice in termini di ingegnerizzazione tra i sistemi IT e l’infrastruttura fisica.
Nel White Paper 210 di Schneider Electric (disponibile in inglese) “Direct Liquid Cooling System Challenges in Data Centers“, abbiamo ricapitolato le sfide che bisognerà superare per adottare questa tecnologia e raccolto preziosi suggerimenti utili a tutte le aziende che pianificano di adottare il raffreddamento a liquido.
Cosa potrebbe andare storto con il raffreddamento a liquido per i data center AI?
La risposta è breve: molto.
1. Possibile corrosione e danni al server
Il raffreddamento a liquido utilizza materiali a contatto con liquido di vario tipo; la loro selezione è particolarmente importante perché devono interagire senza problemi. Nel manuale di installazione i produttori forniscono un elenco dei materiali utilizzati e linee guida sulla qualità dell’acqua da assicurare. Per gli altri materiali a contatto con i fluidi adoperati all’interno del Technology Cooling System (TCS) occorre verificare la compatibilità, compresa quella dei fluidi stessi. Standard e linee guida di settore sono in sviluppo, ma ad oggi bisogna fare particolare attenzione: i materiali provenienti da un produttore potrebbero non essere compatibili con i materiali di altri produttori.
· Tipi di fluidi
Ad esempio, il liquido utilizzato nelle soluzioni di raffreddamento a liquido si presenta prevalentemente in due forme: l’acqua DI (deionizzata) o una soluzione PG 25, un fluido a base di glicole propilenico. I fluidi di produttori diversi non possono essere miscelati.
· Additivi e materiali
Entrambi i fluidi contengono additivi che potrebbero farli interagire con certi tipi di ottone o acciaio e, potenzialmente, renderli corrosivi. Pur sfruttando inibitori di corrosione, se si bagna un materiale che non dovrebbe o se gli inibitori del sistema vengono rilasciati fuori da un intervallo prestabilito, si possono verificare corrosione o formazione di biofilm. Ciò determina la produzione di detriti all’interno del refrigerante, con rischi di danneggiamento per il server
· Nuovi fluidi che fanno il proprio ingresso sul mercato
Alcune aziende stanno portando sul mercato nuovi nanofluidi o fluidi ingegnerizzati, aggiungendo ulteriori opzioni e creando confusione.
2. Problemi su garanzie e SLA (Service Level Agreement)
Nel modello di raffreddamento tradizionale gli operatori dei data center potevano installare condizionatori d’aria vicino ai server. L’aria calda che usciva dai server veniva contenuta e usata per alimentare il condizionatore d’aria. Con il raffreddamento a liquido per i data center AI, la complessità aumenta perché ci sono più fattori da considerare. Ad esempio, il server e l’apparecchiatura di raffreddamento sono collegati con tubi e diventano un insieme condiviso, controllabile in modo interconnesso.
Con il raffreddamento ad aria è possibile controllare le specifiche del server e sapere se necessita di una data temperatura di alimentazione. In generale, è possibile riparare facilmente agli errori di progettazione modificando il flusso d’aria a livello di struttura. Gli operatori dei data center per anni hanno aggiunto sistemi per il contenimento, cambiato piastrelle, aggiunto elementi di raffreddamento a circuito chiuso per compensazione.
Con il raffreddamento a liquido non si ha la stessa possibilità di compensare dopo l’installazione: il livello di ingegneria del sistema è molto più preciso. Oltre alla temperatura di alimentazione si devono considerare anche delle specifiche per la pressione e la portata del liquido. Gli operatori devono avere familiarità con le specifiche dei vari produttori di server e sapere quali potrebbero avere necessità differenti. Non rispettare queste specifiche potrebbe determinare dei rischi per le prestazioni del server.
Per questo serve un fornitore affidabile, che offra una soluzione di raffreddamento a liquido end-to-end, così che si possano evitare discussioni, scarico di responsabilità in caso di problemi o peggio.
3. Mancato risparmio energetico
Il raffreddamento ad aria e il raffreddamento a liquido operano a diverse temperature di alimentazione e le scelte di progettazione del chiller presente nell’impianto possono portare a ulteriori risparmi energetici. Rispetto all’aria, l’acqua è un vettore 23 volte migliore nella conduzione del calore e può contenere oltre 3.000 volte più calore per volume, quindi c’è un compromesso. Naturalmente, è possibile avere un singolo chiller che porta alla stessa temperatura dell’acqua sia le unità raffreddate ad aria che quelle a liquido, ma questo approccio limita la temperatura a cui si può tenere il sistema di liquid cooling per sfruttare le ore in cui si utilizza il free-cooling. Se si acquista un secondo chiller e si possiedono due impianti invece di uno – un chiller per il raffreddamento ad aria e un chiller separato per il raffreddamento a liquido – si può alzare la temperatura del lato del raffreddamento a liquido e ottenere risultati in termini di efficienza. (Di norma, ogni volta che si aumenta di 1°C la temperatura del chiller si ottiene un risparmio tra il 2-2,5% in termini di spesa di elettricità). Se si resta con un chiller solo si riducono i risparmi energetici promessi dal raffreddamento a liquido.
La soluzione: l’approccio end-to-end al raffreddamento a liquido garantito da un partner affidabile
Queste sono solo alcune delle cose che possono andare storte e che evidenziano perché il raffreddamento a liquido per i data center AI richiede un approccio end-to-end, che tenga conto di fornitura, installazione, manutenzione continuativa delle apparecchiature. Aggiungere il raffreddamento a liquido in un data center esistente può essere complicato, ma quando lo si fa bene si possono raffreddare efficacemente i carichi di lavoro “più caldi” e mantenere in funzione l’infrastruttura critica garantendo massima disponibilità ed efficienza.
Motivair by Schneider Electric: soluzioni progettate per AI, HPC e carichi di lavoro GPU ad alta densità
Disponibili a livello globale, le soluzioni di raffreddamento Motivair by Schneider Electric soddisfano le esigenze di potenza e GPU dei data center ad alta densità, in modo affidabile e su larga scala. Il nostro portafoglio completo di raffreddamento a liquido e ad aria si estende a tutta l’infrastruttura fisica del data center e comprende:
- CDU
- RDHx
- HDU
- Piastre fredde dinamiche
- Chiller
- Software e servizi
Tutte le soluzioni sono progettate per supportare i requisiti di gestione termica dei carichi di lavoro HPC, AI e calcolo accelerato di nuova generazione.
Schneider Electric e Motivair propongono l’offerta data center e raffreddamento a liquido più completa disponibile sul mercato, comprensiva di tutta l’infrastruttura di raffreddamento, con la garanzia di una supply chain solida in grado di rispondere ad ogni esigenza a livello globale. Per maggiori dettagli sulle nostre soluzioni di raffreddamento a liquido, visita il nostro sito web.
Grazie a David McGlocklin di Schneider Electric, Cooling Development/Sustaining Engineering Manager, Nord America, per i suoi contributi a questo blog.
Aggiungi un commento