Mentre i vertici della Silicon Valley continuano a profetizzare un’apocalisse imminente per i colletti bianchi, la realtà dei fatti sbatte in faccia a Satya Nadella e soci un sonoro fallimento: i modelli linguistici attuali non riescono a gestire la complessità e il caos strutturale del vero lavoro d’ufficio, fallendo miseramente nei compiti che richiedono logica e sintesi tra fonti sparse.

Per due anni ci hanno martellato con la narrazione secondo cui l’intelligenza artificiale generativa avrebbe svuotato gli uffici legali e le banche d’investimento, trasformando i professionisti in meri supervisori di algoritmi onniscenti. Eppure, come analizzato da Digitaltrends, l’ultima ricerca condotta dalla società di dati Mercor rivela un panorama desolante che mette a nudo l’incompetenza dei cosiddetti “agenti intelligenti”. Il nuovo benchmark APEX-Agents non si limita a chiedere all’AI di comporre una poesiola o risolvere un banale quesito matematico; al contrario, mette i modelli alla prova con compiti reali estrapolati dalla quotidianità di avvocati e consulenti. I risultati sono un bagno di umiltà per i giganti del tech: anche i sistemi teoricamente più avanzati, come Gemini 3 Flash e GPT-5.2, non sono riusciti a superare la soglia ridicola del 25% di precisione.

L’illusione della competenza digitale

Il problema non è la mancanza di potenza di calcolo, ma l’incapacità cronica di gestire il contesto. Nel mondo reale, le informazioni non arrivano sotto forma di prompt puliti e pre-masticati. Un professionista deve saper navigare tra thread di Slack, decifrare PDF normativi e incrociare dati in fogli di calcolo per fornire una consulenza sensata. Secondo Brendan Foody, CEO di Mercor, è proprio qui che l’AI crolla: nel “context-switching”. Quando si tratta di cacciare informazioni tra fonti frammentate, questi modelli si comportano come stagisti distratti, perdendo il filo della logica o, peggio ancora, inventando soluzioni di sana pianta pur di non ammettere il limite. Gemini ha guidato la classifica con un misero 24%, seguito a ruota da GPT-5.2 al 23%. Numeri che, in qualsiasi altro settore, verrebbero considerati un fallimento totale.

Uno stagista inaffidabile al comando

Se oggi la vostra sicurezza lavorativa sembra ancora intatta, è perché l’intelligenza artificiale attuale è, a tutti gli effetti, un collaboratore inaffidabile che indovina la risposta corretta solo una volta su quattro. Affidare la compliance GDPR o la strategia fiscale di un’azienda a questi strumenti sarebbe pura follia gestionale. Tuttavia, non c’è spazio per la compiacenza: la velocità di crescita è inquietante. Solo un anno fa, le prestazioni su compiti complessi oscillavano tra il 5% e il 10%. In dodici mesi hanno raddoppiato la loro efficacia. La rivoluzione del lavoro intellettuale non è stata annullata, è solo in ritardo, in attesa che i bot imparino a gestire quel disordine tipicamente umano che oggi li manda in cortocircuito.

L’intelligenza artificiale fallisce quando deve integrare dati provenienti da strumenti diversi.

Nessun modello di punta ha raggiunto una precisione accettabile per l’uso professionale autonomo.

La crescita delle prestazioni è esponenziale, ma la soglia critica di affidabilità rimane lontana.

Dario

Consulente di comunicazione, social media, SEO ed e-commerce. Grafico, web designer, impaginatore, copertinista e addentrato quanto basta in tutto ciò che riguarda l’Internet. Appassionato di narrativa, arti visive e cinema di menare. Nerd. Gamer.

Vivo e lavoro come freelancer in provincia di Taranto.

Copilot Health: regalereste la vita a un algoritmo?

30 Maggio 2026

AI in ufficio? Forse solo uno stagista inutile e più dispendioso di quel che sembra

L’illusione della competenza digitale

Uno stagista inaffidabile al comando

Articoli correlati

Copilot Health: regalereste la vita a un algoritmo?

Anthropic lancia Claude Opus 4.8 con controllo dello sforzo

AI in ufficio? Forse solo uno stagista inutile e più dispendioso di quel che sembra

L’illusione della competenza digitale

Uno stagista inaffidabile al comando

Articoli correlati

Copilot Health: regalereste la vita a un algoritmo?

Bolla AI: miliardi in fumo per utility inesistenti

Anthropic lancia Claude Opus 4.8 con controllo dello sforzo