Claude Fable 5 e Claude Mythos 5: cosa sono, cosa valgono, dove hanno limiti

Il contesto: cosa è successo ieri

Anthropic ha annunciato Fable, l’inizio di una nuova famiglia di modelli che porta al pubblico molte delle capacità del suo sistema Mythos. Mythos era il modello d’avanguardia che Anthropic aveva rilasciato ad aprile attraverso il Project Glasswing – un programma che ne condivideva l’accesso con un ristretto gruppo di partner come Apple, NVIDIA e alcune grandi istituzioni di cybersecurity, con l’obiettivo di aiutare quelle organizzazioni a proteggere i propri sistemi dagli attacchi informatici.

In pratica: Mythos esiste da due mesi, è rimasto chiuso al pubblico per ragioni di sicurezza, e Fable 5 è la sua versione “addomesticata” per uso generale.

I modelli della classe Mythos si collocano al di sopra della classe Opus in termini di capacità. Il primo, Claude Mythos Preview, è stato rilasciato ad aprile tramite Project Glasswing. Oggi escono Claude Fable 5 e Claude Mythos 5. Fable viene dal latino fabula, “ciò che si racconta”, affine al greco mythos.

Cos’è Mythos e perché era così delicato

Anthropic ha dichiarato che Mythos ha già trovato “migliaia di vulnerabilità ad alta criticità, incluse alcune in ogni grande sistema operativo e browser web”. Il rovescio della medaglia è che attori malintenzionati potrebbero usarlo per scopi offensivi, con conseguenze potenzialmente severe per “economie, sicurezza pubblica e sicurezza nazionale”.

Alcuni esperti di sicurezza sostengono che la decisione di Anthropic di limitare l’accesso a Mythos stia concentrando un potere insolito nelle mani di un’unica azienda privata. “Qual che sia la scelta giusta, l’aspetto più sorprendente di questa situazione è quanto siamo dipendenti dal giudizio di una manciata di attori privati che non rispondono al pubblico”, ha detto Jonathan Iwry, fellow del Wharton Accountable AI Lab.

Fable 5: cos’è davvero

Fable 5 e Mythos 5 sono lo stesso modello sottostante. La distinzione riguarda il controllo degli accessi: Claude Mythos 5 non ha classificatori di sicurezza per le query su cybersecurity e biologia, ed è riservato ai partner Glasswing approvati. Claude Fable 5 ha classificatori di sicurezza aggiuntivi.

Non è dunque un modello separato: è Mythos con un filtro. Quanto questo filtro incida sulle capacità reali è una domanda legittima.

Anthropic riconosce che i filtri sono stati deliberatamente tarati in modo conservativo, e che sono ancora più restrittivi di quanto sarebbe ideale – per esempio, a volte richieste innocue attivano i classificatori. L’obiettivo dichiarato è ridurre i falsi positivi dopo il lancio.

I benchmark: è davvero il migliore?

I dati disponibili a oggi indicano una leadership reale su diversi fronti:

Su SWE-Bench Pro (benchmark di ingegneria del software), Claude Fable 5 ha ottenuto l’80,3%, contro il 58,6% di GPT-5.5 e il 54,2% di Gemini 3.1 Pro. Su FrontierCode Diamond ha raggiunto il 29,3%, contro il 5,7% di GPT-5.5. Nelle valutazioni di conoscenza e ragionamento ha totalizzato 1932 punti, contro 1769 di GPT-5.5 e 1314 di Gemini 3.1 Pro.

Su SWE-bench Verified, Fable 5 guida con il 95%, seguito da Claude Opus 4.8 all’88,6% e GPT-5.5 all’82,6%.

Su Artificial Analysis Intelligence Index, Fable 5 occupa la prima posizione con un punteggio di 64,9 ed è il leader su 5 dei 10 benchmark sottostanti. Sul benchmark di conoscenza e allucinazioni AA-Omniscience, Fable 5 segna +7 punti rispetto al precedente leader, Gemini 3.1 Pro Preview.

Però: i benchmark hanno sempre limiti metodologici. GPT-5.5 riporta l’85,0% su ARC-AGI-2 e risultati forti su FrontierMath Tier 4 – aree dove il tavolo di benchmark di Fable 5 non riporta dati diretti. I due laboratori vincono benchmark di contesto lungo diversi, quindi non c’è una vittoria netta e definitiva.

Il prezzo: dove diventa un problema reale

Anthropic prezza Fable 5 e Mythos 5 a $10 per milione di token in input e $50 per milione di token in output. Questo lo rende il modello più costoso tra i principali modelli AI disponibili a livello globale – e il doppio del costo di Opus 4.8.

Questo prezzo da solo potrebbe funzionare da deterrente per un uso diffuso. Molte imprese stanno diventando critiche nei confronti dei costi dell’AI dopo aver ricevuto le bollette o aver esaurito i budget annuali in anticipo. I modelli avanzati come Opus 4.8 possono esacerbare questi problemi, con capacità di ragionamento avanzato che possono suddividere una singola richiesta in più task.

Una sessione di coding interattiva di 30 minuti con Fable 5 può facilmente superare i 50.000 token. A $50 per milione di token in output, si pagano $2–3 per una conversazione che Sonnet 4.6 potrebbe gestire per $0,15.

Il consiglio pratico che emerge dalla comunità tecnica: usare Fable 5 per task one-shot ad alta complessità, non per conversazioni iterative.

La questione dei dati: novità controversa

Con il lancio di Fable 5 e Mythos 5, Anthropic richiederà una retention di 30 giorni su tutto il traffico, anche per le imprese che in precedenza avevano accordi di zero-retention. L’azienda dichiara che non userà i dati per il training, ma solo per “difendersi da attacchi complessi e nuovi jailbreak” e “identificare e ridurre i falsi positivi”. Questa policy potrebbe stabilire un precedente industriale in cui l’accesso a modelli sempre più potenti viene condizionato a politiche obbligatorie di data retention, presentate come misura di sicurezza.

Per chi opera in ambiti con requisiti di data sovereignty (legale, sanità, finance), questa è una variabile non trascurabile.

Il rollout per gli abbonati: attenzione

L’accesso sugli abbonamenti è strutturato per fasi: fino al 22 giugno, Fable 5 è incluso nei piani Pro, Max, Team ed Enterprise a costo zero. Dal 23 giugno, Anthropic rimuoverà Fable 5 da quei piani, richiedendo crediti di utilizzo aggiuntivi, con l’intenzione dichiarata di reintegrarlo come funzione standard appena la capacità lo permetterà. Non c’è una data impegnativa.

Nella pratica

Cosa è reale:

  • Leadership tecnica su coding e task agentico di lunga durata è supportata da benchmark indipendenti, non solo da quelli di Anthropic
  • La distinzione Fable/Mythos non è marketing: è una scelta di sicurezza con conseguenze reali sulle capacità disponibili al pubblico

Cosa va relativizzato:

  • I benchmark si misurano in harness diversi tra lab diversi – la comparazione perfetta non esiste
  • GPT-5.5 costa la metà in input ($5 vs $10) ed è già integrato in molte pipeline aziendali: il vantaggio di Fable non è automaticamente traducibile in ROI

Cosa è da tenere sotto osservazione:

  • La mandatory data retention da 30 giorni è una novità di policy con implicazioni legali non ancora esplorate
  • I falsi positivi dei classificatori di sicurezza sono ammessi dalla stessa Anthropic: il modello può bloccarsi su richieste legittime
  • Nei test di Artificial Analysis, il fallback verso Opus 4.8 si è verificato nell’8% dei task – Anthropic dichiara meno del 5%, ma i test indipendenti registrano cifre leggermente superiori, soprattutto in domande scientifiche.

È un modello tecnicamente leader al lancio – come lo erano tutti i precedenti leader al momento del loro lancio. Quanto questa leadership durerà e se il prezzo è giustificato dipende dal caso d’uso specifico.

 

Articoli correlati

Share via
Copy link