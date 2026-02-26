Negli ultimi anni alcuni di voi potrebbero aver sentito parlare della Responsible Scaling Policy (RSP), il quadro volontario con cui Anthropic, la società dietro Claude, ha provato a distinguersi come uno dei laboratori di intelligenza artificiale più attenti alla sicurezza. Ebbene, a distanza di oltre due anni dal debutto della policy originale, l’azienda ha annunciato la versione 3.0 del documento, con cambiamenti tutt’altro che marginali.

La nuova RSP punta ad aumentare trasparenza e flessibilità, ma nel tempo stesso segna l’abbandono di uno degli impegni più rigidi e simbolici: quello di non addestrare modelli oltre una certa soglia senza poter garantire in anticipo adeguate misure di sicurezza; una scelta che, come vedremo, sta già facendo discutere.

Cos’era e come cambia la Responsible Scaling Policy di Anthropic

L’idea alla base della RSP era piuttosto semplice, almeno sulla carta: adottare un sistema di impegni condizionali (se-allora). Se un modello avesse superato determinate soglie di capacità, ad esempio in ambito biologico o chimico, allora sarebbero scattate automaticamente misure di sicurezza più severe.

Anthropic aveva introdotto diversi AI Safety Levels (ASL), da ASL-2 e ASL-3 con misure dettagliate e già implementate (come classificatori di input e output per bloccare contenuti sensibili), a livelli successivi (ASL-4 e oltre) volutamente lasciati più indefiniti, in attesa di capire come sarebbero evolute le capacità dei modelli.

Nel tempo l’azienda sostiene di aver effettivamente attivato e migliorato le misure ASL-3 (in particolare per mitigare rischi legati ad armi biologiche e chimiche), e di aver contribuito a spingere altri attori del settore, come OpenAI e Google DeepMind, ad affrontare framework simili.

Tuttavia, secondo Anthropic, la realtà si è rivelata più complessa del previsto.

La zona grigia delle capacità e il contesto politico

Uno dei punti centrali della revisione riguarda l’ambiguità delle soglie. In diversi casi, spiega l’azienda, i modelli si sono avvicinati ai livelli di capacità considerati critici, ma senza che fosse possibile stabilire in modo definitivo se li avessero effettivamente superati.

In ambito biologico, ad esempio, i test disponibili non permetterebbero né di escludere del tutto un rischio elevato né di dimostrarlo con certezza; questo ha reso difficile utilizzare le soglie come linee rosse nette su cui costruire consenso pubblico e azioni multilaterali.

A complicare il quadro si aggiunge il contesto politico statunitense, oggi fortemente orientato alla competitività e alla crescita economica più che alla regolamentazione. Secondo quanto riportato, l’amministrazione Trump avrebbe adottato un approccio decisamente meno normativo rispetto alle aspettative di qualche anno fa, rendendo improbabile, almeno nel breve termine, l’introduzione di una legge federale stringente sull’IA.

In questo scenario, mantenere impegni unilaterali molto rigidi avrebbe potuto, secondo i dirigenti di Anthropic, penalizzare l’azienda rispetto ai concorrenti.

Addio allo stop automatico allo sviluppo

Il cambiamento più rilevante è proprio questo, Anthropic non si impegna più a sospendere automaticamente l’addestramento di nuovi modelli qualora non siano già pronte misure di sicurezza adeguate.

Jared Kaplan, co-fondatore e chief scientist, ha spiegato che interrompere lo sviluppo mentre altri laboratori proseguono potrebbe portare paradossalmente a un mondo meno sicuro, lasciando il ritmo dell’innovazione nelle mani degli attori con meno protezioni.

La nuova policy, pur ribadendo l’importanza della sicurezza, sostituisce dunque le soglie binarie con un approccio più flessibile e progressivo. Una scelta che alcuni osservatori temono possa aumentare gradualmente il rischio, ma senza un singolo elemento in cui scatti l’allarme.

Arrivano Frontier Safety Roadmap e Risk Report

Per compensare l’abbandono delle linee rosse rigide, la versione 3.0 introduce tre strumenti principali:

separazione tra impegni aziendali e raccomandazioni di settore -> la RSP ora distingue ciò che Anthropic si impegna a fare unilateralmente da ciò che ritiene necessario a livello di intero settore Frontier Safety Roadmap -> l’azienda pubblicherà roadmap periodiche con obbiettivi concreti (ma non vincolanti) su sicurezza informatica avanzata, red-teaming automatizzato, allineamento dei modelli alla costituzione di Claude, registri centralizzati delle attività critiche, e proposte di scala normativa per politiche pubbliche adattive. L’idea è creare una funzione di forzatura interna, rendendo pubblici gli obbiettivi così da incentivare l’organizzazione a rispettarli Risk Report periodici -> ogni 3-6 mesi verranno pubblicati report dettagliati sul profilo di rischio dei modelli, con analisi di capacità, scenari di minaccia e misure di mitigazione attive; in determinate circostanze è prevista anche una revisione esterna da parte di esperti indipendenti

Tra mercato, pressione geopolitica e sicurezza

Il cambio di rotta avviene in un momento di forte crescita per Anthropic: nuovi finanziamenti miliardari, valutazioni in forte aumento e modelli Claude sempre più apprezzati (in particolare nell’ambito della programmazione).

Allo stesso tempo, secondo alcune ricostruzioni giornalistiche, l’azienda sarebbe stata oggetto di pressioni da parte del Pentagono per concedere maggiore accesso ai propri sistemi. Sebbene la nuova RSP non colleghi esplicitamente i due eventi, il contesto competitivo e geopolitico è difficile da ignorare.

La Responsible Scaling Policy resta, nelle intenzioni di Anthropic, un documento dinamico e in continua evoluzione. La versione 3.0 amplia la trasparenza e formalizza nuovi strumenti di reporting, ma riduce i vincoli autoimposti che avevano contribuito a costruire la reputazione dell’azienda come la più prudente tra i big dell’IA.

Resta ora da capire se questo nuovo equilibrio tra competitività e sicurezza sarà sufficiente a rassicurare pubblico, governi e comunità scientifica, oppure se segnerà l’inizio di una fase in cui la corsa all’intelligenza artificiale renderà sempre più difficile tracciare confini netti.