Il già impressionante Claude 3.5 Sonnet di Anthropic ottiene un significativo aumento delle prestazioni martedì, quando la startup di AI generativa lancia una versione migliorata e aggiornata del modello insieme al nuovo e leggero Claude 3.5 Haiku. L’aggiornamento di Sonnet include una funzione beta pubblica che dà all’IA un controllo di base sul computer su cui è in esecuzione.
Claude 3.5 Sonnet era già leader nelle prestazioni quando si trattava di attività di codifica, ma la nuova versione mostra miglioramenti significativi rispetto al suo predecessore e supera costantemente sia Gemini 1.5 che GPT-4o in una serie di benchmark di settore. Gemini 1.5 Pro è stato l’unico modello a superare il nuovo Sonnet 3.5 in qualsiasi test, e lo ha fatto con il benchmark MATH.
Anche il nuovo Haiku 3.5 non è da meno, nonostante le sue dimensioni ridotte. In uscita alla fine del mese, il 3.5 Haiku supera Claude 3.0 Opus, il modello più grande di ultima generazione dell’azienda. Come la sua versione più grande, la nuova Haiku è estremamente abile nei compiti di codifica, ottenendo un punteggio del 40,6% nel SWE-bench Verified, superiore sia al GPT-40 che all’originale 3.5 Sonnet.
Ancora più impressionante è il fatto che la nuova Claude 3.5 Sonnet può ora interagire con le applicazioni desktop tramite l’API “Computer Use”. L’intelligenza artificiale è in grado di generare le sequenze di tasti, i clic del mouse e i movimenti necessari per emulare l’utente umano. L’azienda si affretta a sottolineare che il sistema è attualmente piuttosto sperimentale e soggetto a errori. Lo scopo della versione beta pubblica è quello di ottenere un feedback dagli sviluppatori per migliorare rapidamente le prestazioni dell’API.
“Abbiamo addestrato Claude a vedere ciò che accade su uno schermo e poi a utilizzare gli strumenti software disponibili per svolgere le attività”, ha scritto Anthropic in un post sul blog. “Quando uno sviluppatore incarica Claude di utilizzare un software e gli concede l’accesso necessario, Claude guarda le schermate di ciò che è visibile all’utente e poi conta quanti pixel in verticale o in orizzontale deve spostare il cursore per cliccare nel punto giusto”
Si tratta di un agente AI, in sostanza. Si tratta cioè di un’intelligenza artificiale in grado di automatizzare altri processi software, che si tratti di generare e qualificare lead di marketing, scoprire schemi e tendenze nei dati medici o semplicemente navigare verso un sito web specifico e compilare un modulo necessario. Considerali come una versione più avanzata dei sistemi di automazione dei processi robotici esistenti.
L’azienda cita Asana, Canva, Cognition, DoorDash, Replit e The Browser Company come primi utilizzatori della nuova funzione. Replit, ad esempio, sta utilizzando Computer Control per “sviluppare una funzione chiave che valuta le app in fase di creazione per il suo prodotto Replit Agent”, si legge nell’annuncio.
Non c’è da preoccuparsi che l’IA si trasformi in Skynet (per ora), come spiega Anthropic. “Gli esseri umani mantengono il controllo fornendo indicazioni specifiche che indirizzano le azioni di Claude, come ad esempio ‘usa i dati del mio computer e online per compilare questo modulo'”, ha dichiarato un portavoce di Anthropic a TechCrunch. “Le persone abilitano l’accesso e lo limitano a seconda delle necessità. Claude scompone le richieste dell’utente in comandi informatici (ad esempio, spostare il cursore, cliccare, digitare) per portare a termine quel compito specifico”
Anthropic ammette anche che il Controllo Informatico potrebbe essere usato impropriamente per generare spam, diffondere disinformazione o commettere frodi. In risposta, l’azienda ha sviluppato nuovi classificatori che identificano quando l’API viene utilizzata e se tale utilizzo sta “causando danni”
Leggi di più su www.digitaltrends.com
Consulente di comunicazione, social media, SEO ed e-commerce. Grafico, web designer, impaginatore, copertinista e addentrato quanto basta in tutto ciò che riguarda l’Internet. Appassionato di narrativa, arti visive e cinema di menare. Nerd. Gamer.
Vivo e lavoro come freelancer in provincia di Taranto.


