L’abilitazione dell’AI comporta il raggiungimento di livelli impressionanti nella potenza di elaborazione dei dati 

I server che gestiscono i processi AI (artificial intelligence) presentano sfide impegnative per i data center in termini di alimentazione e raffreddamento a causa dell’elevata produzione di calore e della densificazione. Leggi il nuovo White Paper 110 del Centro di Ricerca sulla Gestione dell’Energia di Schneider Electric: “The AI Disruption: Challenges and Guidance for Data Center Design”.

Di Steven Carlini

Decenni prima che la parola AI (artificial intelligence) diventasse un termine di uso comune, ero coinvolto in un progetto di gestione del data center principale del più grande retailer del mondo. Il CIO mi mostrò con orgoglio un nuovo computer all’avanguardia. Era in grado di approvare e processare pagamenti con carta di credito in meno di un secondo, contribuendo a prevenire frodi e migliorando l’esperienza del cliente. La velocità e l’efficienza di questo computer furono un cambiamento epocale. Inutile dire che questa tecnologia informatica, che è ancora oggi una parte fondamentale dell’ecosistema di quel retailer, aveva bisogno di alimentazione e raffreddamento adeguati per funzionare. 

I tempi sono davvero cambiati. L’infrastruttura fisica necessaria per supportare quel computer ai tempi era composta da un semplice condizionatore d’aria e da un UPS. Oggi è l’intelligenza artificiale ad essere all’avanguardia nel nostro settore, ma decenni fa lo era questa macchina. 

I server per supportare l’AI presentano sfide imponenti per alimentazione e raffreddamento a causa dell’altissima emissione di calore e della loro moltiplicazione. Il Centro di Ricerca sulla Gestione dell’Energia di Schneider Electric ha appena pubblicato a riguardo il nuovo white paper: “The AI Disruption: Challenges and Guidance for Data Center Design”.  

Tecnologia in evoluzione 

Alla fine degli anni ’80, l’industria aveva abbandonato i “minicomputer” (ovvero un computer con prezzo e prestazioni intermedi fra un mainframe e un microcomputer, solitamente inserito in una rete di trasmissione dati che permette l’accesso multiutente), un tempo molto diffusi, come quello del grande rivenditore di cui vi ho raccontato. Il mondo dell’elaborazione si spostò verso il modello Client Server con computer basati su Intel x86, IBM PowerPC o Sun SPARC, controllati da sistemi operativi Windows o UNIX. L’industria dei minicomputer scomparve a causa di acquisizioni e bancarotte. 

A metà degli anni ’90 abbiamo visto la nascita del Cloud Computing con server basati principalmente su X86 che costituivano le server farm alla base del Cloud. I processori si sono evoluti da quando Intel ha introdotto il primo microprocessore commerciale nel 1971. Il co-fondatore di Intel, Gordon Moore, ideò la “Legge di Moore” del 1975 che affermava che la potenza di calcolo raddoppia circa ogni due anni, mentre microchip migliori e più veloci diventano meno costosi. La Legge di Moore ha avuto ragione fino a quando è stata confutata dai limiti fisici che hanno iniziato a limitare, appunto, il numero di micro-transistor che potevano essere inseriti in una CPU dal prezzo accessibile. Questi server tradizionali che utilizzano CPU x86 costituiscono la maggior parte dei data center in quella che viene chiamata architettura di Von Neumann. 

Ma questa architettura non è adeguata per i server AI e i relativi cluster. Le CPU non sono in grado di elaborare in modo efficiente il flusso continuo di dati di grandi dimensioni e la memoria fa da collo di bottiglia. 

Nuovi requisiti per i server AI 

I server AI richiedono acceleratori ad hoc – come le Unità di Elaborazione Grafica (GPU) o i Circuiti Integrati Specifici dell’Applicazione (ASIC) – come le Unità di Elaborazione Tensoriale di Google (TPU) o circuiti integrati specifici per le applicazioni (ASIC) – come le unità di elaborazione dei tensori (TPU) di Google o l’Ascend 910 di Huawei. Questi acceleratori sono in grado di gestire gli elevati tassi di dati che sono necessari per l’addestramento e il calcolo dei modelli AI. Sono dotati anche di una buona memoria sui chip per aumentare la velocità di elaborazione e l’efficienza. All’interno del server, sono gestiti dalle CPU e il passaggio dei dati avviene tramite interconnessioni ad alta larghezza di banda. Le memorie multi-porta consentono di parallelizzare le letture e le scritture per una maggiore velocità. 

Le DPU lavorano con CPU e GPU per migliorare la potenza di calcolo e la gestione di carichi di lavoro di dati moderni sempre più complessi. L’unità di elaborazione dati (DPU) è un componente relativamente nuovo del server AI che scarica dalla CPU le attività di rete, archiviazione e gestione ad alta intensità di elaborazione. 

Carichi di lavoro di apprendimento e inferenza 

I server AI all’avanguardia eseguono due tipi distinti di carichi di lavoro: apprendimento e inferenza 

  • Carichi di lavoro di addestramento. Sono i dati utilizzati per insegnare ai modelli di Intelligenza Artificiale: contengono esempi di input e le corrispondenti risposte desiderate che il modello dovrebbe apprendere a produrre. È il momento in cui si “addestra” il modello di AI. 
  • Carichi di lavoro di inferenza. Sono i dati utilizzati per fare previsioni e ottenere output specifici su nuovi dati o test. È il momento in cui il modello viene testato con nuovi dati per valutarne la capacità di rispondere in modo accurato. 

I modelli di inferenza possono essere eseguiti su server di addestramento molto potenti, che è meglio posizionarli più vicino agli utenti e all’input dei dati per aumentare la velocità, ridurre l’ingombro di rete e diminuire la latenza. La maggior parte del tempo, i server di inferenza eseguiranno anche una versione ridotta del modello di apprendimento. Le GPU dell’acceleratore sono ancora fondamentali per raggiungere gli obiettivi di servizio aziendale (SLA) e i requisiti per i carichi di lavoro di inferenza nella maggior parte dei casi. 

Leggi il nostro nuovo White Paper 110 sui server AI 

La tecnologia hardware necessaria per supportare tutte le versioni dell’IA come Machine Learning (ML), Generative AI (GAI) e Large Language Models (LLM), per citarne alcuni, è veramente un ecosistema che include potenti dispositivi endpoint. Gli smartphone possono inviare testi, immagini e video a server remoti tramite connessioni veloci. Questi server utilizzano versioni semplificate di modelli di apprendimento automatico per elaborare le informazioni e restituire risultati come una risposta, delle descrizioni scritte, immagini o addirittura musica. 

Per uno studio più dettagliato dell’infrastruttura fisica necessaria a supportare questa nuova generazione di server AI e delle best practice per l’implementazione, leggi il nostro nuovo white paper “The AI Disruption: Challenges and Guidance for Data Center Design”.  

Questo post è stato originariamente pubblicato sul blog global di Schneider Electric.

Tag: ,

Aggiungi un commento

Tutti i campi sono richiesti.