Il panorama dell’intelligenza artificiale si arricchisce di un nuovo protagonista, Claude Sonnet 4.5, l’ultimo modello rilasciato da Anthropic, che l’azienda non esita a definire il miglior modello al mondo per agenti reali, codifica e utilizzo del computer. Un’affermazione certamente ambiziosa, ma che trova conferma nei dati presentati: il modello è infatti in grado di lavorare in autonomia per oltre 30 ore consecutive, un salto enorme rispetto al precedente Opus 4, fermo a sole sette ore.

Secondo l’azienda, Sonnet 4.5 ha dimostrato sul campo la sua resistenza portando a termine la programmazione di un’app di chat simile a Slack o Teams, con circa 11.000 righe di codice generate senza interruzioni, fermandosi solo una volta completato il compito. Un risultato che mette in evidenza la direzione verso cui Anthropic si muove, non più soltanto chatbot capaci di rispondere a domande, ma agenti in grado di assumersi incarichi complessi e gestirli dall’inizio alla fine.

Le novità principali di Claude Sonnet 4.5

L’aggiornamento non si limita a un semplice miglioramento delle performance, il modello arriva insieme a una serie di strumenti e funzioni pensati per sviluppatori e aziende, tra i più rilevanti troviamo:

  • Claude Agent SDK, l’infrastruttura con cui Anthropic costruisce i propri strumenti e che ora viene resa disponibile a tutti per creare agenti IA personalizzati
  • aggiornamenti a Claude Code, tra cui i checkpoint (per salvare lo stato di un progetto e riprenderlo in qualsiasi momento), un’interfaccia terminale migliorata e un’estensione nativa per VS Code
  • nuovi strumenti di memoria e gestione del contesto, per consentire ad agenti e modelli di sostenere attività di lunga durata con un livello di complessità crescente
  • integrazione nelle app Claude di funzionalità avanzate come l’esecuzione diretta di codice e la creazione di file (documenti, fogli di calcolo, presentazioni) all’interno delle conversazioni
  • l’estensione Claude per Chrome, già in anteprima per alcuni utenti Max, che sfrutta la nuova capacità di navigare online e interagire direttamente con siti e strumenti

Sul fronte tecnico, Claude Sonnet 4.5 si posiziona al primo posto su benchmark come SVE-bench Verified (che misura le capacità di risolvere problemi reali di programmazione e software) e OSWorld, dove raggiunge il 61,4% rispetto al 42,2% del modello precedente.

Anthropic evidenzia come il nuovo modello sia particolarmente adatto per settori dove precisione e affidabilità sono imprescindibili, come la sicurezza informatica, i servizi finanziari e la ricerca scientifica; aziende come Canva hanno già testato Sonnet 4.5 in fase Beta, confermandone l’utilità per attività complesse e ricerca interna.

Un esempio pratico riportato dal team riguarda la capacità del modello di coordinare calendari, pianificare riunioni, analizzare dashboard di dati e persino redigere report come farebbe un capo dello staff digitale; in altre parole, un livello di autonomia che va ben oltre la generazione di testo, avvicinandosi a quello che viene spesso definito IA agentistica.

Accanto alle prestazioni, Anthropic sottolinea i progressi sul fronte dell’allineamento e della sicurezza, Claude Sonnet 4.5 è stato infatti certificato AI Safety Level 3 (ASL-3), che include filtri avanzati per prevenire usi rischiosi in ambiti sensibili (ad esempio materiali CBRN); non meno importante, l’azienda dichiara di aver ridotto drasticamente i falsi positivi dei classificatori, rendendo l’esperienza più fluida per gli utenti senza sacrificare le misure di protezione.

Contestualmente al lancio, Anthropic ha introdotto anche una piccola anteprima sperimentale chiamata Imagine with Claude, riservata agli abbonati Max per i prossimi cinque giorni; si tratta di una demo che mostra le potenzialità di Sonnet 4.5 nel generare software in tempo reale, senza istruzioni predefinite, una finestra sul futuro degli agenti IA creativi e adattivi.

Claude Sonnet 4,5 è già disponibile tramite API e nelle app Claude, al medesimo prezzo del precedente Sonnet 4 (3/15 dollari per milione di token, a seconda del livello), gli aggiornamenti a Claude Code e alla piattaforma developer sono accessibili a tutti gli utenti, mentre alcune funzioni avanzate (come l’estensione per Chrome e Imagine with Claude) restano al momento riservate a chi ha sottoscritto i piani superiori.

Il rilascio di Claude Sonnet 4.5 conferma quanto la competizione tra Anthropic, OpenAI e Google sia in piena accelerazione, basti pensare che pochi giorni fa OpenAI ha presentato Pulse per ChatGPT, mentre Google continua a potenziare Gemini con funzioni sempre più legate al mondo dei dispositivi e delle applicazioni quotidiane.

In questo scenario, l’arrivo di un modello capace dio lavorare 30 ore di fila, generare migliaia di righe di codice e gestire gli strumenti digitali come un vero assistente umano potrebbe rappresentare un cambio di passo importante; la domanda a questo punto è se gli utenti, aziende e sviluppatori in primis, saranno pronti a fidarsi di agenti sempre più autonomi.

I nostri contenuti da non perdere: