Al momento stai visualizzando Alcuni ricercatori hanno appena risolto il più grande problema dell’IA (sì, è l’impatto ambientale)
  • Save

Alcuni ricercatori hanno appena risolto il più grande problema dell’IA (sì, è l’impatto ambientale)

I modelli linguistici di grandi dimensioni che alimentano i chatbot di oggi come ChatGPT, Gemini e Claude sono sistemi di intelligenza artificiale generativa immensamente potenti e per di più affamati di energia.

A quanto pare non ne hanno bisogno: una recente ricerca dell’Università della California, Santa Cruz, ha dimostrato che i moderni LLM che eseguono miliardi di parametri possono funzionare con soli 13 watt di potenza senza perdere prestazioni. Si tratta di un consumo pari a quello di una lampadina da 100W e di un miglioramento di 50 volte rispetto ai 700W consumati da una GPU Nvidia H100.

“Abbiamo ottenuto le stesse prestazioni a un costo decisamente inferiore: tutto ciò che abbiamo dovuto fare è stato cambiare radicalmente il funzionamento delle reti neurali”, ha dichiarato Jason Eshraghian, autore principale del lavoro. “Poi abbiamo fatto un ulteriore passo avanti e abbiamo costruito un hardware personalizzato” Per farlo, abbiamo eliminato la matrice di moltiplicazione della rete neurale.

La moltiplicazione della matrice è una pietra miliare degli algoritmi che alimentano gli attuali LLM. Le parole vengono rappresentate come numeri e poi organizzate in matrici dove vengono ponderate e moltiplicate l’una con l’altra per produrre risultati linguistici che dipendono dall’importanza di alcune parole e dalla loro relazione con altre parole nella frase o nel paragrafo.

Queste matrici vengono memorizzate su centinaia di GPU fisicamente separate e recuperate a ogni nuova interrogazione o operazione. Il processo di spostamento dei dati che devono essere moltiplicati tra una moltitudine di matrici costa una quantità significativa di energia elettrica e quindi di denaro.

Per ovviare a questo problema, il team della UC Santa Cruz ha forzato i numeri all’interno delle matrici in uno stato ternario: ogni singolo numero ha un valore negativo, zero o positivo. Questo permette ai processori di sommare semplicemente i numeri invece di moltiplicarli, una modifica che non fa alcuna differenza per l’algoritmo ma che fa risparmiare un’enorme quantità di costi in termini di hardware. Per mantenere le prestazioni nonostante la riduzione del numero di operazioni, il team ha introdotto nel sistema il calcolo basato sul tempo, creando di fatto una “memoria” per la rete, aumentando la velocità di elaborazione delle operazioni ridotte.

“Dal punto di vista del progettista di circuiti, non è necessario l’overhead della moltiplicazione, che comporta un sacco di costi”, ha detto Eshraghian. Sebbene il team abbia implementato la nuova rete su hardware FGPA personalizzato, è convinto che molti dei miglioramenti in termini di efficienza possano essere adattati ai modelli esistenti utilizzando software open-source e piccole modifiche all’hardware. Anche su GPU standard, il team ha visto una riduzione di 10 volte del consumo di memoria, migliorando la velocità operativa del 25%.

Con i produttori di chip come Nvidia e AMD che spingono sempre più in là i confini delle prestazioni dei processori GPU, negli ultimi anni la richiesta di energia elettrica (e i relativi costi finanziari) per i data center che ospitano questi sistemi sono aumentati a dismisura. L’aumento della potenza di calcolo comporta un aumento proporzionale della quantità di calore disperso che i chip producono, calore che ora richiede sistemi di raffreddamento a liquido ad alta intensità di risorse per essere completamente dissipato.

Il CEO di Arm Rene Haas ha avvertito The Register adaprile che i data center di intelligenza artificiale potrebbero consumare fino al 20-25% dell’intera produzione elettrica degli Stati Uniti entro la fine del decennio, se non verranno adottate rapidamente misure correttive.

Leggi di più su www.digitaltrends.com

Lascia un commento