Anthropic lancia Claude Opus 4.8, il modello AI che ammette i propri errori

Uno dei problemi più noti dei modelli di intelligenza artificiale è la tendenza a essere eccessivamente sicuri di sé, inclini a non ammettere i propri errori. Vuol dire che quando si trovano di fronte a un errore o a un’incertezza, invece di ammetterlo tendono a presentare comunque le proprie risposte come corrette, lasciando all’utente l’onere di scoprire eventuali lacune. È un comportamento che, soprattutto in contesti professionali, può avere conseguenze significative e a volte difficili da individuare. Proprio su questo fronte ha lavorato Anthropic che ha annunciato il rilascio di Claude Opus 4.8, disponibile allo stesso prezzo del modello precedente.

Indice:

Le novità di Claude Opus 4.8
Le prestazioni nei benchmark
Le nuove funzionalità
Sicurezza e prospettive
Disponibilità e prezzi

Segui TuttoTech.net su Google Discover

Pubblicità-14%

Amazon

Apple iPhone 17, 256 GB

839€~~979€~~

Vai all'offerta

Le novità di Claude Opus 4.8

Il nuovo modello arriva a poche settimane di distanza da Opus 4.7, rilasciato ad aprile e descritto all’epoca come un passo avanti rispetto al predecessore ma ancora distante dal modello più potente (e controverso) dell’azienda, Claude Mythos Preview.

Tra i miglioramenti più significativi riportati da Anthropic c’è proprio la questione dell’onestà. I tester hanno riscontrato che Opus 4.8 è più propenso a segnalare le proprie incertezze e meno incline a fare affermazioni non supportate. Secondo le valutazioni interne, il nuovo modello è circa quattro volte meno propenso rispetto al predecessore a lasciare passare inosservati i difetti nel codice che ha prodotto.

Le prestazioni nei benchmark

Anthropic ha condiviso i risultati di Opus 4.8 su una serie di test di riferimento del settore. Su Terminal-Bench 2.1 (che misura la capacità di operare in ambienti a riga di comando) il modello stabilisce un nuovo risultato di riferimento. Su OSWorld-Verified (un test che valuta la capacità di usare un computer in modo autonomo come farebbe un essere umano) Opus 4.8 raggiunge l’84% su Online-Mind2Web, una suite che simula la navigazione e l’interazione con siti web reali. Questo è un risultato che Anthropic definisce un salto significativo rispetto sia a Opus 4.7 sia a GPT-5.5 di OpenAI. Su Finance Agent v2 (un benchmark specifico per le attività finanziarie) Opus 4.8 si posiziona in cima alla classifica dei modelli attualmente disponibili.

Anthropic lancia Claude Opus 4.8, il modello AI che ammette i propri errori 1

Anthropic lancia Claude Opus 4.8, il modello AI che ammette i propri errori 2

Queste valutazioni sono confermate da alcune delle aziende che hanno testato il modello in anteprima. Chi sviluppa strumenti per la programmazione assistita ha rilevato miglioramenti nell’integrazione con strumenti esterni, con un numero di passaggi inferiore per ottenere lo stesso risultato. Chi lavora in ambito legale segnala il punteggio più alto mai registrato su un benchmark dedicato agli agenti per le attività legali, con il primo modello a superare la soglia del 10% sullo standard più severo. Chi opera nel settore finanziario ha apprezzato una maggiore accuratezza nell’indicare le fonti all’interno dei documenti e una migliore efficienza nell’uso dei token su documenti particolarmente densi di dati come i bilanci aziendali.

Le nuove funzionalità

Insieme ai miglioramenti nelle prestazioni del nuovo modello, Anthropic introduce anche altre novità. La prima riguarda il controllo dell’impegno. Gli utenti di claude.ai possono ora scegliere quanta elaborazione il modello dedica a un’attività. Con le impostazioni più elevate (fino a un livello “extra” o “massimo”) il modello ragiona più a lungo e in modo più approfondito, producendo risposte di qualità superiore ma consumando più token (la risorsa che determina i limiti di utilizzo). Con impostazioni più basse, la risposta arriva più velocemente e il consumo si riduce. Anthropic consiglia i livelli più alti per compiti difficili o per flussi di lavoro lunghi e automatizzati.

È disponibile in versione sperimentale anche una funzione chiamata “dynamic workflows”, pensata per Claude Code, lo strumento di Anthropic per la programmazione assistita. Con questa funzione Opus 4.8 può pianificare un compito complesso e poi avviare centinaia di processi paralleli all’interno di una singola sessione, verificando i risultati prima di restituirli all’utente. L’esempio fornito da Anthropic è quello delle migrazioni di codice su larga scala. Si tratta di operazioni che coinvolgono centinaia di migliaia di righe di codice e che oggi richiedono un intervento manuale significativo. Con Opus 4.8 possono essere gestite dall’inizio alla fine in modo automatizzato. Questa funzione è disponibile per i piani Enterprise, Team e Max di Claude Code.

Sul fronte dei costi, Anthropic segnala che la modalità veloce di Opus 4.8 (che permette al modello di lavorare a velocità più che raddoppiata rispetto alla modalità standard) è ora tre volte meno costosa rispetto a quanto era per i modelli precedenti.

Per gli sviluppatori che integrano Claude nelle proprie applicazioni tramite API, arriva anche una modifica tecnica. È ora possibile aggiornare le istruzioni fornite al modello nel mezzo di un’attività senza dover ricominciare da capo o interrompere il flusso di lavoro. Questo permette a un’applicazione di modificare i permessi, i limiti di elaborazione o il contesto operativo mentre un agente è già al lavoro, senza perdere la cronologia della conversazione.

Sicurezza e prospettive

Sul fronte della sicurezza, il team interno di Anthropic ha valutato il comportamento di Opus 4.8 in situazioni potenzialmente critiche. Il giudizio è stato positivo, con Opus 4.8 che mostra una maggiore tendenza ad agire nell’interesse dell’utente e a rispettarne l’autonomia, mentre i comportamenti problematici (come la tendenza all’inganno o la disponibilità a collaborare con chi tenta di usare il modello in modo improprio) risultano sensibilmente ridotti rispetto a Opus 4.7, e in linea con quelli di Claude Mythos Preview, il modello che Anthropic considera attualmente il più sicuro del suo catalogo.

Proprio Mythos Preview è al centro dei prossimi piani di Anthropic. Si tratta di un modello di capacità superiore a Opus (ha scovato vulnerabilità in macOS ed è stato utilizzato da Mozilla per individuare le criticità di Firefox 150), al momento accessibile solo a un numero ristretto di organizzazioni per attività legate alla sicurezza informatica nell’ambito del progetto interno denominato Glasswing. Il motivo della disponibilità limitata è legato alla necessità di sviluppare misure di protezione adeguate prima di un rilascio più ampio. Anthropic ha dichiarato che sta lavorando rapidamente in questa direzione e si aspetta di rendere i modelli di classe Mythos disponibili a tutti i clienti nelle prossime settimane.

Disponibilità e prezzi

I prezzi per l’utilizzo standard rimangono invariati rispetto a Opus 4.7: cinque dollari per milione di token in input e venticinque per milione in output. La modalità veloce ha un costo di dieci dollari per milione di token in input e cinquanta in output. Il modello è accessibile tramite le API con l’identificativo claude-opus-4-8.

Seguici su:YouTube Google, come Fonte PreferitaTikTok Facebook Instagram Google Discover