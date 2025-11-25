Dopo il debutto del tanto atteso Gemini 3 e l’aggiornamento del modello agentico di OpenAI, anche Anthropic ha deciso di giocare le sue carte importanti presentando Claude Opus 4.5, un modello che, come sottolineato dall’azienda, non solo rappresenta un passo avanti evidente nelle capacità di ragionamento, ma anticipa un cambiamento più ampio nel modo in cui l’IA assisterà utenti e professionisti nelle attività quotidiane.

Secondo quanto dichiarato, Opus 4.5 è il miglior modello al mondo per tutto ciò che riguarda programmazione, agenti intelligenti e uso del computer, con un netto miglioramento anche nella ricerca avanzata e nella gestione di strumenti tipicamente complessi come slide, documenti e fogli di calcolo. Un salto in avanti che molti tester interni hanno definito con una frase ricorrente, quasi una sintesi perfetta del modello: semplicemente ci riesce.

Prestazioni di livello e primi riscontri

Anticipando ciò che molti di voi avranno immaginato, Anthropic ha condiviso alcuni risultati particolarmente significativi basati su test interni, il modello per esempio è riuscito a ottenere un punteggio superiore a quello dei migliori candidati umani nell’esame di ingegneria del software assegnato ai nuovi assunti, un test famoso per la sua complessità e per la pressione temporale imposta. Non si tratta ovviamente di un confronto diretto sulle competenze umane, collaborazione, comunicazione e intuito restano elementi non misurati, ma il risultato solleva domande molto concrete su come l’IA potrebbe ridefinire il lavoro nei prossimi anni.

A sorprendere non è soltanto la velocità, ma anche il modo in cui Claude Opus 4.5 affronta problemi ambigui e multilivello: in un caso emblematico del benchmark τ2-bench, utilizzato per valutare le capacità agentiche, il modello ha individuato una soluzione creativa e del tutto legittima per aiutare un cliente bloccato con un biglietto aereo non modificabile; prima l’upgrade della cabina (consentito), poi la modifica del volo. Un comportamento che, se da un lato è stato classificato come fallimento dal bench perché inatteso, dall’altro rappresenta esattamente quel tipo di ragionamento laterale che molti clienti e tester stanno riportando nelle prime ore di utilizzo.

Un altro elemento interessante riguarda l’efficienza, Opus 4.5 utilizza molti meno token rispetto a Sonnet 4.5 per raggiungere lo stesso risultato, grazie al nuovo parametro di sforzo configurabile via API; gli sviluppatori possono scegliere se privilegiare rapidità o massima accuratezza, con Opus 4.5 che, al livello massimo, riesce a superare Sonnet 4.5 pur riducendo l’uso di risorse.

Segui l'Intelligenza Artificiale su Telegram, ricevi news e offerte per primo

Sicurezza, prompt injection e limiti del modello Opus 4.5

Quando si parla di agenti IA emergono sempre dubbi sulla sicurezza, Anthropic afferma che Opus 4.5 è il suo modello più robusto di sempre e forse il più allineato nel mercato, con una resistenza nettamente superiore agli attacchi di prompt injection, questi casi in cui istruzioni malevole vengono nascoste in una pagina o in una fonte dati per forzare il modello a comportarsi in modo dannoso.

Nonostante ciò l’azienda riconosce che il modello non è immune: test interni ed esterni hanno dimostrato che alcuni attacchi particolarmente sofisticati riescono comunque a superare le difese; inoltre, in scenari più critici come la codifica malevola o l’uso del computer per attività rischiose (per esempio la raccolta di dati sensibili o generazione di contenuti pericolosi), il tasso di rifiuto non arriva al 100%. Claude Code per esempio si ferma al 78% di rigetti nelle richieste vietate (malware, DDoS, software di sorveglianza non consensuale), mentre la funzionalità uso del computer raggiunge circa l’88%.

Insomma, i progressi sono notevoli ma resta margine di miglioramento, soprattutto perché l’uso agentico è senza dubbio l’ambito più vulnerabile.

Segui l'Intelligenza Artificiale su Telegram, ricevi news e offerte per primo

Le novità lato prodotto

In parallelo al nuovo modello Opus 4.5, Anthropic ha presentato una serie di aggiornamenti che interessano sviluppatori e utenti finali. Claude Code, sempre più centrale nella strategia dell’azienda, introduce una modalità Plan più accurata, con domande preliminari più intelligenti e un file plan.md modificabile dall’utente prima dell’esecuzione, un dettaglio che tanti sviluppatori apprezzeranno perché consente ulteriore controllo prima di lasciare le chiavi all’agente.

L’app desktop permette ora di eseguire più sessioni parallele, anche locali e remote, creando un ambiente multi-agente coordinato: un agente che corregge bug, uno che analizza repository GitHub e un terzo che aggiorna la documentazione, tutto in contemporanea.

Sul fronte consumer arrivano novità sostanziose, le conversazioni lunghe non si bloccano più grazie al riassunto automatico del contesto, Claude per Chrome diventa disponibile per tutti gli utenti Max e la Beta di Claude per Excel si estende anche ai profili Team ed Enterprise; tutto questo ovviamente spinto dalla maggiore efficienza di Opus 4.5 nelle attività di lunga durata.

Anche i limiti di utilizzo cambiano, niente più restrizioni dedicate a Opus e soglie complessive più alte per Max e Team Premium, così da permettere agli utenti di integrare Opus 4.5 nel lavoro quotidiano senza timori di esaurire il modello troppo presto.

Claude Opus 4.5 rappresenta, come spesso accade in questa fase evolutiva rapidissima dell’intelligenza artificiale, un modello che non si limita a incrementare le prestazioni, ma ridisegna alcuni equilibri. L’avanzamento nel ragionamento, nella programmazione e nelle capacità agentiche è evidente, così come i progressi sul fronte della sicurezza, pur non essendo ancora definitivi.

Bisognerà attendere per capire quanto tutto questo impatterà davvero sul lavoro quotidiano, la battaglia tra i modelli frontier di Google, OpenAI e Anthropic si fa sempre più serrata e, come sempre, sarà chi riuscirà a coniugare potenza, affidabilità e sicurezza a conquistare la fiducia degli utenti.