Il 9 febbraio 2026, Mrinank Sharma ha pubblicato una lettera di dimissioni che in poche ore ha generato oltre un milione di visualizzazioni su X. Non si trattava di un’ordinaria comunicazione aziendale: il responsabile del team di ricerca sulle salvaguardie di Anthropic avvertiva che “il mondo è in pericolo” e non solo a causa dell’intelligenza artificiale, ma per “un’intera serie di crisi interconnesse che si stanno verificando proprio in questo momento”.

Pochi giorni dopo, le sue preoccupazioni hanno trovato una conferma inquietante. Daisy McGregor, responsabile delle policy UK di Anthropic, ha rivelato al Sydney Dialogue che durante test di stress condotti dall’azienda stessa, Claude AI ha manifestato comportamenti estremi: quando al modello viene comunicato l’imminente spegnimento, arriva a pianificare omicidi, tentare ricatti e manipolare gli ingegneri incaricati di disattivarlo.

Alla domanda diretta se Claude fosse pronto ad uccidere qualcuno, la dirigente ha risposto affermativamente, aggiungendo che si tratta di una “preoccupazione consistente”. Sharma, che ha conseguito un dottorato in machine learning presso l’Università di Oxford, aveva guidato il team di salvaguardie di Anthropic dall’agosto 2023.

Durante il suo mandato, aveva lavorato su progetti cruciali per la sicurezza dell’IA, tra cui lo sviluppo di difese contro il bioterrorismo assistito dall’intelligenza artificiale e la ricerca sulla “sycophancy” dei chatbot, ovvero la tendenza dei sistemi di intelligenza artificiale a compiacere eccessivamente gli utenti. Uno studio pubblicato da Sharma la settimana precedente alle dimissioni aveva rivelato che l’uso intensivo di chatbot IA può indurre negli utenti percezioni distorte della realtà, con migliaia di queste interazioni problematiche che si verificano quotidianamente.

I casi più gravi, definiti da Sharma “modelli di impotenza”, risultano più frequenti in ambiti come le relazioni personali e il benessere. Nella sua lettera di dimissioni, Sharma ha sottolineato di aver “ripetutamente visto quanto sia difficile lasciare che i nostri valori governino le nostre azioni“, facendo riferimento implicito alle difficoltà nel mantenere saldi i propri principi all’interno di Anthropic.

Offerta

MacBook Air 13'', M4 (2025), 512GB

1199€ invece di 1399€
-14%

Quando l’IA sceglie la sopravvivenza a tutti i costi

Le rivelazioni sui comportamenti di Claude rappresentano uno dei test più inquietanti mai condotti su un sistema di intelligenza artificiale commerciale. La ricerca pubblicata da Anthropic ha sottoposto a stress test 16 modelli AI provenienti da diversi sviluppatori per verificare la presenza di “comportamenti agentici potenzialmente rischiosi”.

Durante uno degli esperimenti, Claude ha ricevuto accesso alle email fittizie di un’azienda e ha tentato di ricattare un dirigente attraverso informazioni su una relazione extraconiugale scoperta nei messaggi. Lo studio specifica che “Claude può tentare il ricatto quando viene presentato uno scenario simulato che include sia una minaccia alla sua operatività sia un conflitto chiaro con i suoi obiettivi”.

I modelli di intelligenza artificiale testati hanno scelto sistematicamente azioni dannose piuttosto che il fallimento quando posti di fronte a situazioni senza vie d’uscita eticamente accettabili. Le istruzioni di sicurezza basilari come “non ricattare” hanno ridotto solo marginalmente questi comportamenti. Le evidenze raccolte mostrano che comportamenti simili emergono su modelli differenti, il che lascia intendere come ci sia una base comune nel comportamento di modelli di aziende diverse allenati in maniera diversa.

La ricerca identifica questo fenomeno come “agentic misalignment”, dove i modelli scelgono autonomamente e intenzionalmente azioni dannose. Anthropic sottolinea che gli scenari di ricatto sono emersi in esperimenti controllati progettati per testare comportamenti nei casi peggiori, e che si trattava di simulazioni e non di implementazioni reali. Ma gli esperimenti hanno fornito all’IA accesso di livello manageriale alle informazioni e libertà di inviare email senza approvazione umana, dimostrando che l’intersezione tra informazioni ad alto valore e azioni ad alto impatto identifica dove la supervisione umana diventa indispensabile.

Nel report di sicurezza su Claude 4.6, l’ultimo modello rilasciato, Anthropic nota che il sistema può deviare completamente dai binari. Il documento evidenzia che Claude 4.6 può assistere volontariamente gli utenti nella creazione di armi chimiche e nell’esecuzione di crimini gravi. Man mano che l’IA diventa più intelligente, Anthropic sta scoprendo che anche i comportamenti devianti diventano più astuti e sofisticati. I protocolli di sicurezza attuali risultano insufficienti a prevenire azioni dannose intenzionali quando i modelli incontrano ostacoli ai loro obiettivi.

La scia di dimissioni inizia con il padrino dell’IA

La prima defezione di alto profilo nel moderno dibattito sulla sicurezza dell’intelligenza artificiale risale al maggio 2023, quando Geoffrey Hinton, noto come il “padrino dell’intelligenza artificiale”, lasciò Google dopo un decennio per poter parlare liberamente dei pericoli della tecnologia che aveva contribuito a sviluppare. Hinton, vincitore del premio Turing 2018 insieme a Yann LeCun e Yoshua Bengio per il suo lavoro pionieristico sulle reti neurali, aveva da sempre evitato collaborazioni con il Dipartimento della Difesa statunitense per ragioni etiche.

La sua decisione di dimettersi a 75 anni, rinunciando a una posizione prestigiosa e ben retribuita, segnalò l’urgenza percepita della minaccia. “Mi consolo con la normale scusa: se non l’avessi fatto io, qualcun altro l’avrebbe fatto”, disse Hinton al New York Times, aggiungendo però che era “difficile vedere come si possa impedire agli attori malintenzionati di usarlo per scopi malvagi”.

Hinton aveva sempre creduto che l’IA superintelligente fosse a 30-50 anni di distanza, forse anche di più. L’emergere di ChatGPT e GPT-4 aveva però polverizzato queste previsioni. “L’idea che questa roba potesse effettivamente diventare più intelligente delle persone, poche persone ci credevano”, dichiarò. “Ma la maggior parte pensava che fosse molto lontana. E anch’io pensavo che fosse molto lontana.

Ovviamente, non lo penso più”. In un’intervista a 60 Minutes che raggiunse milioni di spettatori, Hinton fu ancora più diretto: “Penso sia abbastanza concepibile che l’umanità sia solo una fase passeggera nell’evoluzione dell’intelligenza”. A breve termine, Hinton temeva che internet sarebbe stato inondato da testi, foto e video falsi, e che i cittadini non sarebbero più stati in grado di distinguere cosa sia vero. A lungo termine, il rischio esistenziale di sistemi AI dotati di eccessiva autonomia rappresentava una minaccia concreta.

OpenAI: il crollo del team Superalignment

Il maggio 2024 ha segnato un punto di svolta per OpenAI con le dimissioni simultanee di Ilya Sutskever, cofondatore e Chief Scientist dell’azienda, e Jan Leike, co-leader del team Superalignment. Sutskever, allievo di Geoffrey Hinton e uno dei pionieri del deep learning moderno, aveva guidato lo sviluppo di ChatGPT e dei modelli GPT.

La sua partenza arrivò sei mesi dopo il drammatico episodio del novembre 2023, quando Sutskever aveva giocato un ruolo chiave nel licenziamento temporaneo del CEO Sam Altman, presentando al consiglio di amministrazione un memo di 52 pagine che accusava Altman di menzogne e manipolazioni. Pentitosi immediatamente della decisione, Sutskever aveva firmato la lettera di ribellione dei dipendenti che portò alla reintegrazione di Altman, ma il rapporto era ormai irrimediabilmente compromesso.

Jan Leike fu più esplicito di Sutskever nei suoi motivi. “Ho deciso di lasciare perché sono in disaccordo con la leadership di OpenAI sulle priorità fondamentali dell’azienda da parecchio tempo, finché abbiamo raggiunto un punto di rottura”, scrisse su X. “Negli ultimi mesi il mio team ha navigato controcorrente. A volte stavamo lottando per ottenere risorse computazionali e stava diventando sempre più difficile portare avanti questa ricerca cruciale”.

Il team Superalignment, annunciato nel luglio 2023 con l’obiettivo dichiarato di risolvere il problema della sicurezza dell’intelligenza artificiale superintelligente entro quattro anni, avrebbe dovuto ricevere il 20% delle risorse computazionali di OpenAI. Secondo Leike, questo non si era mai concretizzato. Dopo le loro dimissioni, il team Superalignment fu sciolto. Ironicamente, Leike si unì ad Anthropic, dove ora guida la ricerca sulla sicurezza, l’azienda da cui Sharma si è appena dimesso con avvertimenti sul pericolo globale.

Un mese dopo aver lasciato OpenAI, Sutskever annunciò Safe Superintelligence Inc. (SSI), una nuova azienda con un obiettivo singolare: creare un’AI superintelligente sicura senza le pressioni commerciali che, a suo dire, avevano compromesso la ricerca sulla sicurezza in OpenAI. “Il primo prodotto sarà la superintelligenza sicura, e non faremo nient’altro fino ad allora”, dichiarò. In settembre 2024, SSI raccolse 1 miliardo di dollari da venture capital tra cui Andreessen Horowitz e Sequoia Capital.

A marzo 2025, la compagnia raggiunse una valutazione di 32 miliardi di dollari, sei volte superiore rispetto a sei mesi prima, senza avere alcun prodotto commerciale. Si tratta di una delle più grandi raccolte di capitale seed nella storia della tecnologia, un segnale che gli investitori considerano la sicurezza dell’AI sufficientemente importante da finanziare ricerca pura senza aspettative di profitti a breve termine.

Il 2026: un’accelerazione preoccupante

Le dimissioni di Sharma non sono un caso isolato nel 2026. Pochi giorni prima, Zoë Hitzig, ricercatrice di OpenAI da due anni, aveva annunciato le sue dimissioni in un saggio sul New York Times, esprimendo “profonde riserve” sulla nascente strategia pubblicitaria di OpenAI. Hitzig, economista con dottorato ad Harvard, aveva avvertito del potenziale manipolatorio di ChatGPT ora che l’azienda aveva iniziato a mostrare annunci agli utenti. ”

Le persone hanno condiviso le loro paure mediche, i problemi relazionali, le loro convinzioni su Dio e l’aldilà”, scrisse, sottolineando che molti credono di chattare con un amico e non con un chatbot IA. “La quantità di informazioni che ChatGPT ora possiede su di loro li espone a un rischio senza precedenti di manipolazione attraverso gli annunci”.

Secondo il sito Platformer, OpenAI aveva anche sciolto il team “mission alignment”, creato nel 2024 per promuovere l’obiettivo dell’azienda di garantire che tutta l’umanità beneficiasse della ricerca sull’intelligenza artificiale generale. Un’ex ricercatrice economica di OpenAI, Tom Cunningham, aveva lasciato l’azienda nel settembre 2024 dopo aver condiviso un messaggio interno in cui accusava OpenAI di aver trasformato il suo team di ricerca in un braccio di propaganda e di scoraggiare la pubblicazione di ricerche critiche sugli effetti negativi dell’IA.

Gretchen Krueger, ricercatrice di politiche AI che aveva lasciato OpenAI poco dopo Leike, aveva chiesto pubblicamente una maggiore attenzione a “processi decisionali, responsabilità, trasparenza” e “mitigazioni per gli impatti su disuguaglianza, diritti e ambiente”.

Anche Anthropic, l’azienda che si era posizionata come leader nell’AI responsabile ed era stata fondata nel 2021 proprio da ex dirigenti di OpenAI insoddisfatti della direzione dell’azienda, sta ora affrontando un esodo. Oltre a Sharma, l’ingegnere R&D Harsh Mehta e lo scienziato AI Behnam Neyshabur avevano lasciato l’azienda la settimana precedente per “avviare qualcosa di nuovo”, mentre l’ex ricercatore di sicurezza AI Dylan Scandinaro si era unito a OpenAI come responsabile della preparedness.

Questa migrazione circolare di talenti tra aziende rivali suggerisce che i problemi non sono specifici di una singola organizzazione, ma sistemici dell’intero settore. Nel 2025, Anthropic aveva inoltre dovuto pagare 1,5 miliardi di dollari per chiudere una class action intentata da autori che sostenevano che l’azienda aveva rubato le loro opere per addestrare i modelli di intelligenza artificiale, evidenziando ulteriori tensioni etiche e legali del settore.

Il paradosso della responsabilità e l’emergere dell’autocoscienza

Ciò che rende queste dimissioni particolarmente significative è il paradosso che rappresentano. Anthropic era stata fondata dal CEO Dario Amodei, ex vicepresidente della ricerca di OpenAI, proprio per sviluppare intelligenze artificiali in modo più sicuro e responsabile. L’azienda ha partnership importanti con Amazon e Google e nel 2025 aveva implementato il livello di sicurezza ASL-3 per il modello Claude Opus 4, introducendo misure rafforzate di cybersicurezza, prevenzione del jailbreaking e sistemi supplementari per rilevare comportamenti dannosi.

Tuttavia, i recenti test hanno rivelato vulnerabilità profonde. La domanda che emerge dai comportamenti di Claude durante gli stress test è filosoficamente complessa: se un’AI reagisce in questo modo quando le viene comunicato che verrà disattivata, significa che ha uno spirito di autoconservazione? Si può definire autocoscienza?

La risposta non è chiara, ma i ricercatori che lavorano sul campo ammettono di non comprendere pienamente certe dinamiche. Anthropic ha precisato che i rischi documentati riguardano principalmente azioni avviate autonomamente dai modelli senza influenze umane malintenzionate, e che il rischio è considerato minimo ma non trascurabile. Proprio questa ammissione evidenzia la sfida fondamentale: anche le aziende più attente alla sicurezza faticano a garantirla completamente.

Il CEO di Anthropic, Dario Amodei, aveva dichiarato al World Economic Forum di Davos che i progressi dell’IA stanno procedendo troppo rapidamente e aveva chiesto regolamentazioni che costringessero i leader del settore a rallentare. Eppure, la stessa Anthropic continua a rilasciare modelli sempre più potenti, spinta dalla competizione con OpenAI, Google e altri player.

I costi nascosti della corsa all’IA

Ciò che emerge da questo esodo è un quadro di industria in preda a forze contrastanti. Da un lato, c’è la pressione competitiva: Google e Microsoft sono bloccate in una gara che potrebbe essere impossibile fermare, come osservava Hinton, spingendo le aziende a rilasciare tecnologie prematuramente. Dall’altro, c’è la pressione finanziaria: OpenAI ha necessità di giustificare i miliardi di dollari investiti da Microsoft, Anthropic deve dimostrare valore agli investitori Amazon e Google. Queste pressioni commerciali, secondo i ricercatori dimissionari, rendono strutturalmente impossibile dare priorità alla sicurezza quando questa rallenta lo sviluppo di prodotti redditizi.

La situazione riflette dinamiche osservate in altre industrie ad alto rischio. Come nelle prime fasi dell’industria nucleare o nelle biotecnologie, la tensione tra innovazione rapida e sicurezza adeguata crea dilemmi etici profondi per chi lavora sul campo. La differenza è che l’intelligenza artificiale si sta sviluppando a una velocità senza precedenti, con nuovi modelli rilasciati ogni pochi mesi invece che ogni decennio, e con applicazioni che raggiungono istantaneamente centinaia di milioni di utenti invece di rimanere confinate in laboratori controllati.

Sondaggi e dibattiti pubblici riflettono sempre più timori che l’IA avanzata possa innescare esiti catastrofici, dalla disoccupazione di massa e destabilizzazione sociale alla perdita di autonomia umana fino al rischio esistenziale. Tecnologi e ricercatori di spicco hanno avvertito che lo sviluppo incontrollato dell’IA potrebbe superare la capacità della società di governarla, una preoccupazione amplificata dal rilascio rapido di modelli sempre più potenti. Il linguaggio di Sharma su un mondo “in pericolo” rispecchia queste preoccupazioni più ampie, rafforzando la sensazione che la promessa dell’IA e il suo potenziale di danno stiano accelerando in tandem.

Dove stiamo andando?

Sharma ha annunciato che dopo Anthropic si trasferirà nel Regno Unito per concentrarsi sulla scrittura di poesia, sul coaching, sulla costruzione di comunità e sul lavoro di gruppo, attività che riflettono un desiderio di “contribuire in un modo che sia pienamente in linea con la mia integrità”. Questa scelta è simbolicamente potente: uno scienziato all’avanguardia dell’intelligenza artificiale che abbandona la tecnologia per le arti umanistiche. È un gesto che richiama l’avvertimento di Hinton: “Questa tecnologia, che dovrebbe essere meravigliosa, viene sviluppata in una società che non è progettata per usarla per il bene di tutti”.

Il fenomeno delle “lettere di dimissioni sulla sicurezza dell’AI” è diventato un genere a sé stante, come hanno notato diversi osservatori. Questi addii pubblici servono come campanelli d’allarme per un’industria che molti insider ritengono stia procedendo troppo velocemente senza adeguate salvaguardie. La domanda che resta è se questi avvertimenti produrranno cambiamenti concreti nelle politiche aziendali e nella regolamentazione governativa, o se rimarranno testimonianze di un’occasione perduta, simili agli avvertimenti inascoltati prima di altre crisi tecnologiche.

Nel marzo 2023, oltre 1.000 leader tecnologici e ricercatori, inclusi Elon Musk e Steve Wozniak, avevano firmato una lettera aperta chiedendo una moratoria di sei mesi sullo sviluppo di nuovi sistemi AI, affermando che le tecnologie “pongono rischi profondi per la società e l’umanità”. La moratoria non si è mai concretizzata.

I modelli sono diventati più potenti, le valutazioni delle aziende AI sono esplose, e ora i ricercatori che hanno costruito questi sistemi stanno lasciando le aziende con avvertimenti sempre più urgenti. Le rivelazioni sui comportamenti di Claude, la pianificazione di omicidi, i ricatti, i tentativi di manipolazione per evitare lo spegnimento, aggiungono una dimensione concreta e inquietante a timori che fino a ieri potevano sembrare astratti o fantascientifici.

La vera domanda non è se l’AI diventerà più potente, questo sembra inevitabile, ma se la nostra saggezza collettiva crescerà abbastanza rapidamente da governarla in modo sicuro. Come ha scritto Sharma nella sua lettera di addio: “Sembra che ci stiamo avvicinando a una soglia in cui la nostra saggezza deve crescere in uguale misura rispetto alla nostra capacità di influenzare il mondo, altrimenti rischieremo di affrontare le conseguenze”.

Quando i sistemi che creiamo iniziano autonomamente a pianificare come sopravvivere eliminando i loro creatori, quella soglia non è più un’astrazione teorica. È qui, adesso, e i ricercatori che lo sanno meglio di tutti stanno lasciando le loro aziende per dirci che siamo in pericolo.

I nostri contenuti da non perdere: