Anthropic ha presentato la sua ultima famiglia di modelli Claude 4 e si preannuncia come un salto di qualità per chi sta costruendo assistenti AI di nuova generazione o codifica. Le stelle dello spettacolo sono Claude Opus 4, la nuova centrale elettrica, e Claude Sonnet 4, progettato per essere un tuttofare intelligente.
Anthropic non è timida riguardo alle sue ambizioni, affermando che questi modelli sono orientati a “far progredire le strategie di IA dei nostri clienti su tutta la linea” Opus 4 è lo strumento per “superare i limiti del coding, della ricerca, della scrittura e della scoperta scientifica”, mentre Sonnet 4 è definito un “aggiornamento istantaneo di Sonnet 3.7”, pronto a portare “le prestazioni di frontiera nei casi di utilizzo quotidiano”
Claude Opus 4: il nuovo campione di codifica
Quando Anthropic definisce Claude Opus 4 il suo “modello più potente e il miglior modello di codifica al mondo”, non puoi che prenderne atto. E i numeri lo confermano: Opus 4 è in cima alle classifiche dei test più importanti del settore, con il 72,5% di SWE-bench e il 43,2% di Terminal-bench.
Ma non si tratta solo di velocità. Opus 4 è costruito per il lungo periodo, progettato per “prestazioni sostenute su attività di lunga durata che richiedono uno sforzo concentrato e migliaia di passaggi” Immagina un’intelligenza artificiale in grado di “lavorare ininterrottamente per diverse ore”: questo è quanto sostiene Anthropic.
Questo dovrebbe essere un enorme passo avanti rispetto ai precedenti modelli Sonnet e potrebbe ampliare i risultati che gli agenti AI possono raggiungere, affrontando problemi che richiedono una vera e propria perseveranza.
Claude Sonnet 4: per l’AI quotidiana e il lavoro agenziale
Mentre Opus 4 è il campione dei pesi massimi, Claude Sonnet 4 si preannuncia come un cavallo di battaglia versatile, che promette di dare un notevole impulso a una vasta gamma di applicazioni. I primi commenti di coloro che hanno avuto modo di dare un’occhiata in anteprima sono entusiasmanti.
Ad esempio, GitHub “dice che Claude Sonnet 4 è eccezionale negli scenari agenziali” ed è così impressionato che “pensa di introdurlo come modello di base per il nuovo agente di codifica in GitHub Copilot” Si tratta di un’approvazione importante.
Anche il commentatore tecnologico Manus è rimasto impressionato, sottolineando i suoi “miglioramenti nel seguire istruzioni complesse, nel ragionamento chiaro e nei risultati estetici”
Le vibrazioni positive continuano con iGent, che “riferisce che Sonnet 4 eccelle nello sviluppo autonomo di app multi-funzione, oltre a migliorare sostanzialmente la risoluzione dei problemi e la navigazione nella codebase, riducendo gli errori di navigazione dal 20% a quasi zero” Si tratta di una svolta per i flussi di lavoro di sviluppo.
Sourcegraph è altrettanto ottimista, ritenendo che il modello rappresenti un “salto sostanziale nello sviluppo del software: rimanere in carreggiata più a lungo, comprendere i problemi in modo più approfondito e fornire una qualità del codice più elegante”
Augment Code ha riscontrato “tassi di successo più elevati, modifiche del codice più chirurgiche e un lavoro più accurato su attività complesse”, che li ha portati a fare di Sonnet 4 la loro “scelta principale per il modello principale”
Modalità ibride e delizie per gli sviluppatori
Uno degli aspetti più interessanti della famiglia Claude 4 è la sua natura ibrida. Sia Opus 4 che Sonnet 4 possono funzionare in due modalità: una per le risposte quasi immediate di cui abbiamo spesso bisogno e un’altra che consente di “pensare in modo esteso per un ragionamento più profondo”
Questa modalità di ragionamento approfondito fa parte dei piani Pro, Max, Team ed Enterprise Claude. Ma c’è una buona notizia per tutti: Sonnet 4, completo di questa modalità di pensiero estesa, sarà disponibile anche per gli utenti gratuiti, una mossa fantastica per rendere più accessibile l’intelligenza artificiale di alto livello.
Anthropic sta anche introducendo alcuni nuovi strumenti per gli sviluppatori nella sua API, con l’obiettivo evidente di potenziare la creazione di agenti AI più sofisticati:
- Strumento di esecuzione del codice: Consente ai modelli di eseguire effettivamente del codice, aprendo ogni tipo di possibilità per applicazioni interattive e di problem solving.
- Connettore MCP: Introdotto da Anthropic, MCP standardizza lo scambio di contesti tra assistenti AI e ambienti software.
- API per i file: Questo renderà molto più facile per l’intelligenza artificiale lavorare direttamente con i file, un aspetto importante per molte attività del mondo reale.
- Caching dei prompt: gli sviluppatori potranno memorizzare nella cache i prompt per un massimo di un’ora. Può sembrare una cosa da poco, ma può fare davvero la differenza in termini di velocità ed efficienza, soprattutto per le query utilizzate più di frequente.
In testa alle prestazioni del mondo reale
Anthropic ci tiene a sottolineare che i suoi “modelli Claude 4 sono in testa alla classifica di SWE-bench Verified, un benchmark per le prestazioni su compiti reali di ingegneria del software” Al di là della codifica, sottolineano che questi modelli “offrono ottime prestazioni in termini di codifica, ragionamento, capacità multimodali e compiti agici”

Nonostante il salto di qualità, Anthropic non si sbilancia sui prezzi. Claude Opus 4 costerà 15 dollari per milione di token di input e 75 dollari per milione di token di output. Claude Sonnet 4, l’opzione più accessibile, ha un prezzo di 3 dollari per milione di gettoni di input e 15 dollari per milione di gettoni di output. Questa coerenza sarà accolta con favore dagli utenti esistenti.
Sia Claude Opus 4 che Sonnet 4 sono pronte per l’uso tramite l’API Anthropic e sono disponibili anche su Amazon Bedrock e Vertex AI di Google Cloud. Questa ampia disponibilità significa che le aziende e gli sviluppatori di tutto il mondo possono iniziare a sperimentare e integrare questi nuovi strumenti con estrema facilità.
Anthropic sta chiaramente raddoppiando il suo impegno per rendere l’IA più capace, in particolare nei complessi ambiti della codifica e del comportamento autonomo degli agenti. Con questi nuovi modelli e strumenti per gli sviluppatori, il potenziale di innovazione ha appena ricevuto un forte impulso.
Leggi di più su www.artificialintelligence-news.com

Consulente di comunicazione, social media, SEO ed e-commerce. Grafico, web designer, impaginatore, copertinista e addentrato quanto basta in tutto ciò che riguarda l’Internet. Appassionato di narrativa, arti visive e cinema di menare. Nerd. Gamer.
Vivo e lavoro come freelancer in provincia di Taranto.