OpenAI e altre aziende leader nel settore dell’intelligenza artificiale stanno sviluppando nuove tecniche di formazione per superare i limiti dei metodi attuali. Affrontando ritardi e complicazioni impreviste nello sviluppo di modelli linguistici più grandi e potenti, queste nuove tecniche si concentrano su un comportamento simile a quello umano per insegnare agli algoritmi a “pensare”.
Secondo quanto riferito da una dozzina di ricercatori, scienziati e investitori nel campo dell’AI, le nuove tecniche di addestramento, che sono alla base del recente modello “o1” di OpenAI (precedentemente Q* e Strawberry), hanno il potenziale di trasformare il panorama dello sviluppo dell’AI. I progressi riportati potrebbero influenzare i tipi o le quantità di risorse di cui le aziende di IA hanno continuamente bisogno, tra cui hardware specializzato ed energia per aiutare lo sviluppo dei modelli di IA.
Il modello o1 è progettato per affrontare i problemi in modo da imitare il ragionamento e il pensiero umano, suddividendo numerosi compiti in fasi. Il modello utilizza anche dati specializzati e feedback forniti da esperti del settore AI per migliorare le sue prestazioni.
Da quando ChatGPT è stato presentato da OpenAI nel 2022, c’è stata un’impennata nell’innovazione dell’IA e molte aziende tecnologiche sostengono che i modelli di IA esistenti necessitano di un’espansione, sia attraverso una maggiore quantità di dati che attraverso migliori risorse di calcolo. Solo così i modelli di IA potranno migliorare costantemente.
Ora, gli esperti di IA hanno segnalato dei limiti nella scalabilità dei modelli di IA. Gli anni 2010 sono stati un periodo rivoluzionario per la scalabilità, ma Ilya Sutskever, cofondatore dei laboratori di AI Safe Superintelligence (SSI) e OpenAI, afferma che la formazione dei modelli di AI, in particolare per quanto riguarda la comprensione delle strutture e dei modelli linguistici, si è stabilizzata.
“Gli anni 2010 sono stati l’era della scalabilità, ora siamo di nuovo nell’era della meraviglia e della scoperta. Ora è più importante scalare le cose giuste”, hanno dichiarato.
Negli ultimi tempi, i ricercatori dei laboratori di intelligenza artificiale hanno riscontrato ritardi e difficoltà nello sviluppo e nel rilascio di modelli linguistici di grandi dimensioni (LLM) più potenti del modello GPT-4 di OpenAI.
In primo luogo, c’è il costo dell’addestramento di modelli di grandi dimensioni, che spesso si aggira intorno alle decine di milioni di dollari. Inoltre, a causa delle complicazioni che insorgono, come i guasti all’hardware dovuti alla complessità del sistema, l’analisi finale del funzionamento di questi modelli può richiedere mesi.
Oltre a queste sfide, le sessioni di formazione richiedono notevoli quantità di energia, che spesso si traducono in carenze di energia che possono interrompere i processi e avere un impatto sulla rete elettrica in generale. Un altro problema è la quantità colossale di dati che i modelli linguistici di grandi dimensioni utilizzano, tanto che i modelli di intelligenza artificiale avrebbero esaurito tutti i dati accessibili in tutto il mondo.
I ricercatori stanno esplorando una tecnica nota come “test-time compute” per migliorare gli attuali modelli di IA durante l’addestramento o le fasi di inferenza. Il metodo può prevedere la generazione di più risposte in tempo reale per decidere una serie di soluzioni migliori. Di conseguenza, il modello può allocare maggiori risorse di elaborazione a compiti difficili che richiedono un processo decisionale e di ragionamento simile a quello umano. L’obiettivo è rendere il modello più preciso e capace.
Noam Brown, un ricercatore di OpenAI che ha contribuito allo sviluppo del modello o1, ha condiviso un esempio di come un nuovo approccio possa raggiungere risultati sorprendenti. Alla conferenza TED AI tenutasi a San Francisco il mese scorso, Brown ha spiegato che “far pensare un bot per soli 20 secondi in una mano di poker ha ottenuto lo stesso incremento di prestazioni di un modello scalato di 100.000 volte e addestrato per 100.000 volte in più”
Invece di aumentare semplicemente le dimensioni del modello e il tempo di addestramento, questo può cambiare il modo in cui i modelli di IA elaborano le informazioni e portare a sistemi più potenti ed efficienti.
È stato riferito che altri laboratori di IA hanno sviluppato versioni della tecnica o1. Tra questi ci sono xAI, Google DeepMind e Anthropic. La concorrenza nel mondo dell’IA non è una novità, ma potremmo assistere a un impatto significativo sul mercato dell’hardware dell’IA grazie alle nuove tecniche. Aziende come Nvidia, che attualmente domina l’offerta di chip per l’IA grazie all’elevata domanda dei suoi prodotti, potrebbero essere particolarmente colpite dalle nuove tecniche di formazione dell’IA.
Nvidia è diventata l’azienda di maggior valore al mondo nel mese di ottobre e la sua ascesa può essere in gran parte attribuita all’utilizzo dei suoi chip negli array di intelligenza artificiale. Le nuove tecniche potrebbero avere un impatto sulla posizione di mercato di Nvidia, costringendo l’azienda ad adattare i suoi prodotti per soddisfare l’evoluzione della domanda di hardware AI. Potenzialmente, questo potrebbe aprire nuove strade a nuovi concorrenti nel mercato dell’inferenza.
Una nuova era dello sviluppo dell’IA potrebbe essere all’orizzonte, guidata dall’evoluzione della domanda di hardware e da metodi di addestramento più efficienti come quelli impiegati nel modello o1. Il futuro dei modelli di IA e delle aziende che li producono potrebbe essere ridisegnato, aprendo possibilità senza precedenti e una maggiore concorrenza.
Leggi di più su www.artificialintelligence-news.com
Consulente di comunicazione, social media, SEO ed e-commerce. Grafico, web designer, impaginatore, copertinista e addentrato quanto basta in tutto ciò che riguarda l’Internet. Appassionato di narrativa, arti visive e cinema di menare. Nerd. Gamer.
Vivo e lavoro come freelancer in provincia di Taranto.