A soli dodici giorni dal rilascio di Opus 4.6, Anthropic ha rilasciato Claude Sonnet 4.6, confermando un ritmo di sviluppo che al momento sembra non conoscere rivali nell’industria dell’intelligenza artificiale. Il nuovo modello rappresenta molto più di un semplice aggiornamento incrementale: è infatti un cambiamento radicale nel rapporto prezzo/prestazioni, che porta capacità di elaborazione finora riservate ai modelli di punta a costi accessibili per un utilizzo intensivo in ambito aziendale.

Il nuovo modello mantiene lo stesso prezzo del predecessore, Claude Sonnet 4.5: 3 dollari per ogni milione di token in ingresso e 15 dollari per ogni milione di token in output. Per fare un rapido paragone, il nuovissimo Opus 4.6, il modello di punta di Anthropic, costa 15 dollari per milione di token in input e 75 dollari per milione di token in output, cinque volte più di Sonnet 4.6. Eppure, se andiamo a guardare i benchmark reali, Claude Sonnet 4.6 raggiunge prestazioni che fino a qualche settimana fa erano appannaggio esclusivo dei modelli più costosi come Opus, con tutto quello che ciò comportava per le aziende in termini di costi operativi.

Miglioramenti evidenti

Le prestazioni nel coding sono il punto più forte del nuovo modello. Nel benchmark SWE-bench Verified, che misura la capacità di risolvere problemi reali di programmazione, Claude Sonnet 4.6 ha ottenuto un punteggio del 79,6%, allineandosi con i migliori modelli disponibili sul mercato. Ma i numeri più interessanti arrivano dai test sul campo con Claude Code, lo strumento di sviluppo assistito di Anthropic: gli sviluppatori hanno preferito Sonnet 4.6 rispetto a Sonnet 4.5 circa il 70% delle volte, e addirittura hanno preferito Sonnet 4.6 rispetto a Opus 4.5 nel 59% dei casi.
Gli utenti segnalano meno problemi di sovraingegnerizzazione del codice, meno pigrizia nella gestione di compiti complessi, meno allucinazioni e una maggiore capacità di portare a termine task multi-step senza perdere il filo del ragionamento.

Il secondo elemento che distingue questo lancio è il miglioramento nell’uso del computer. Claude Sonnet 4.6 ha ottenuto il 72,5% nel benchmark OSWorld-Verified, che misura la capacità di un modello di utilizzare applicazioni web e desktop come farebbe un essere umano: navigare tra schede del browser, compilare moduli complessi, gestire fogli di calcolo, estrarre informazioni da documenti. Il miglioramento rispetto a Sonnet 4.5, che si fermava al 61,4%, è significativo. Ma il dato più impressionante è la progressione temporale: quando Anthropic ha introdotto questa funzionalità nell’ottobre 2024, Claude Sonnet 3.5 otteneva il 14,9% nello stesso benchmark. In sedici mesi, il punteggio è quasi quintuplicato.

Questo tipo di capacità sblocca applicazioni aziendali che fino a poco tempo fa richiedevano uno sviluppo personalizzato. Molte organizzazioni lavorano con software datato che non dispone di API moderne: portali assicurativi, database governativi, sistemi ERP, software di gestione ospedaliera solo per citare i casi più comuni. Un modello come Sonnet 4.6, capace di “guardare” uno schermo e interagire con esso come farebbe un operatore umano, apre queste piattaforme all’automazione senza che sia necessario realizzare dei connettori specifici per ogni sistema.

Segui l'Intelligenza Artificiale su Telegram, ricevi news e offerte per primo

Nuova finestra contestuale

Anthropic ha introdotto anche, in versione beta, una finestra contestuale da un milione di token. In questo modo Claude Sonnet 4.6 è capace di processare porzioni di codice estremamente grande senza che sia necessario suddividerlo, così da riuscire a seguire i percorsi di esecuzione del codice a profondità decisamente superiori. Per applicazioni aziendali, questo si traduce nella capacità di mantenere in memoria contratti particolarmente complessi, o decine di paper di ricerca contemporaneamente, offrendo la corretta referenziazione nel corso del proprio ragionamento.

Sonnet 4.6 elimina inoltre gran parte dei compromessi tra prestazione e costi che caratterizzava le architetture precedenti. Ora le aziende possono contare su un modello dotato di capacità di elaborazione molto vicine a quelle di Opus, senza che i costi delle API diventino proibitivi quando si parla di volumi elevati. Una soluzione che assume particolare rilevanza nel contesto dell’automazione aziendale: dalle piattaforme di customer service ai sistemi di analisi finanziaria, passando per i tool di sicurezza informatica e gli assistenti di ricerca. Il nuovo rapporto prezzo/prestazioni rende economicamente sostenibile un ventaglio più ampio di applicazioni.

Claude Sonnet 4.6 diventa ora il modello predefinito su claude.ai e su Claude Cowork, l’app desktop per macOS capace di interagire coi file presenti sul computer dell’utente. La velocità di rilascio dei nuovi modelli Claude solleva interrogativi sulla sostenibilità di questo ritmo per i concorrenti. Anthropic ha appena chiuso un round di finanziamento da 30 miliardi di dollari con una valutazione attuale di 380 miliardi di dollari, più del doppio rispetto a settembre. OpenAI, dal canto suo, sta negoziando un round che potrebbe chiudersi intorno ai 100 miliardi di dollari. La competizione si è spostata dal piano della ricerca pura a quello dell’esecuzione industriale: non basta più avere il miglior modello in assoluto, bisogna riuscire a rilasciare miglioramenti significativi con cadenza ravvicinata, mantenendo al contempo i costi sotto controllo per rendere l’adozione aziendale economicamente sensata.