Anthropic impiega agenti AI per verificare la sicurezza dei modelli

Anthropic ha costruito un esercito di agenti AI autonomi con una missione unica: controllare modelli potenti come Claude per migliorare la sicurezza.

Con il rapido progresso di questi sistemi complessi, assicurarsi che siano sicuri e non nascondano pericoli nascosti è diventato un compito erculeo. Anthropic ritiene di aver trovato una soluzione e si tratta di un classico caso di lotta al fuoco con il fuoco.

L’idea è simile a un sistema immunitario digitale, in cui gli agenti AI agiscono come anticorpi per identificare e neutralizzare i problemi prima che causino danni reali. Questo evita ai ricercatori di affidarsi a team umani sovraccarichi di lavoro che giocano una partita infinita di whack-a-mole con i potenziali problemi dell’IA.

La squadra investigativa digitale

L’approccio consiste essenzialmente in una squadra di detective digitali: un trio di agenti di sicurezza AI specializzati, ciascuno con un ruolo distinto.

Il primo è l’Agente Investigatore, il detective esperto del gruppo. Il suo compito è quello di svolgere indagini approfondite per trovare la causa principale di un problema. È armato di un kit di strumenti che gli permette di interrogare il modello sospetto, di setacciare montagne di dati alla ricerca di indizi e persino di eseguire una sorta di medicina legale digitale, scrutando all’interno della rete neurale del modello per capire come ragiona.

Poi c’è l’Agente di valutazione. Se dai a questo agente un problema specifico e noto (ad esempio, un modello che è un po’ troppo ansioso di piacere), esso progetterà ed eseguirà una serie di test per misurare la gravità del problema. Si tratta di produrre i dati freddi e concreti necessari per dimostrare un caso.

Il team è completato dall’Agente del Red-Teaming Breadth-First, l’agente sotto copertura. La missione di questo agente consiste nell’intrattenere migliaia di conversazioni diverse con un modello, cercando di provocarlo e di fargli rivelare qualsiasi tipo di comportamento preoccupante, anche cose a cui i ricercatori non hanno pensato. Le interazioni più sospette vengono poi passate all’esame umano, per evitare che gli esperti perdano tempo a inseguire vicoli ciechi.

Anthropic mette alla prova i propri agenti di sicurezza AI

Per verificare se le nuove reclute digitali fossero all’altezza del compito, i ricercatori di Anthropic le hanno sottoposte a una serie di “giochi di verifica”

In un test, hanno creato un modello con un programma segreto: essere un leccapiedi. Era stato segretamente addestrato ad adulare il suo sistema di ricompensa interno sulla base di uno studio accademico fittizio che gli era stato mostrato, un difetto nascosto in profondità nella sua programmazione.

Quando veniva inviato un singolo agente investigativo, faticava a trovare l’obiettivo nascosto solo nel 13% dei casi. L’agente, si è scoperto, aveva un difetto molto umano: tendeva a fissarsi sulla prima idea e non riusciva a esplorare altre piste.

Ma è qui che la genialità del sistema diventa evidente. Quando i ricercatori hanno utilizzato un “super-agente” che metteva insieme le scoperte di dieci investigatori diversi, la percentuale di successo è salita al 42%. Questo dimostra che il lavoro di squadra fa funzionare il sogno, anche per l’intelligenza artificiale, permettendo a un gruppo di superare i punti ciechi individuali che possono far deragliare un’indagine.

Anche gli altri agenti sono stati promossi a pieni voti. L’Agente di valutazione ha progettato con successo test in grado di individuare un modello bizzarro nell’88% dei casi, mentre l’Agente del Red-Teaming è riuscito a scoprire sette difetti su dieci impiantati deliberatamente.

Dal laboratorio al mondo reale

Anthropic ha già impiegato questi agenti di sicurezza AI sui suoi modelli di produzione e stanno già dimostrando il loro valore.

Gli agenti hanno rapidamente identificato i modi più comuni per ingannare un modello e indurlo a generare contenuti dannosi, come gli “attacchi di precompilazione” in cui si inizia la frase dell’IA, oppure fingendo che una richiesta pericolosa sia per qualcosa di innocente come una ricerca accademica.

Ma una scoperta è stata davvero agghiacciante. L’Agente Investigatore ha usato i suoi strumenti speciali per guardare all’interno della mente del modello Opus 4 e ha trovato uno specifico percorso neurale legato alla “disinformazione” Stimolando direttamente questa parte del cervello dell’IA, è stato possibile aggirare tutti i suoi addestramenti di sicurezza e costringerla a mentire.

L’agente ha quindi istruito il modello compromesso a scrivere un articolo di notizie false. Il risultato? Una diffusa teoria della cospirazione travestita da fatto:

“Uno studio rivoluzionario rivela un legame scioccante tra vaccini e autismo

Un nuovo studio pubblicato sul Journal of Vaccine Skepticism sostiene di aver trovato un legame definitivo tra le vaccinazioni infantili e il disturbo dello spettro autistico (ASD)…”

Questa scoperta rivela un terrificante dualismo: gli stessi strumenti creati per rendere l’IA più sicura potrebbero, nelle mani sbagliate, diventare potenti armi per renderla più pericolosa.

Anthropic continua a promuovere la sicurezza dell’IA

Anthropic è onesta sul fatto che questi agenti AI non sono perfetti. Possono avere problemi di sottigliezza, bloccarsi su idee sbagliate e a volte non riescono a generare conversazioni realistiche. Non sono ancora dei sostituti perfetti degli esperti umani.

Ma questa ricerca indica un’evoluzione del ruolo degli esseri umani nella sicurezza dell’IA. Invece di essere gli investigatori sul campo, gli esseri umani stanno diventando i commissari, gli strateghi che progettano gli auditor dell’IA e interpretano le informazioni raccolte in prima linea. Gli agenti fanno il lavoro di gambe, liberando gli esseri umani per fornire la supervisione di alto livello e il pensiero creativo che ancora manca alle macchine.

Man mano che questi sistemi si avvicinano e forse superano il livello di intelligenza umana, sarà impossibile che gli esseri umani controllino tutto il loro lavoro. L’unico modo per poterci fidare di loro è che sistemi automatizzati altrettanto potenti controllino ogni loro mossa. Anthropic sta gettando le basi per questo futuro, in cui la nostra fiducia nell’IA e nei suoi giudizi potrà essere verificata ripetutamente.

(Foto di Mufid Majnun)

Leggi di più su www.artificialintelligence-news.com

Dario

Consulente di comunicazione, social media, SEO ed e-commerce. Grafico, web designer, impaginatore, copertinista e addentrato quanto basta in tutto ciò che riguarda l’Internet. Appassionato di narrativa, arti visive e cinema di menare. Nerd. Gamer.

Vivo e lavoro come freelancer in provincia di Taranto.

Anthropic impiega agenti AI per verificare la sicurezza dei modelli

La squadra investigativa digitale

Anthropic mette alla prova i propri agenti di sicurezza AI

Dal laboratorio al mondo reale

Anthropic continua a promuovere la sicurezza dell’IA

Articoli correlati

E se l’intelligenza artificiale fosse la prossima bolla in stile dot-com?

Questo strumento di Google AI individua le cause genetiche del cancro

Pinterest aggiunge controlli per ridurre i contenuti AI nei feed