L’intelligenza artificiale generativa continua a mostrare il suo potenziale, nel bene e, purtroppo, anche nel male; secondo un’inchiesta di Bloomberg, un hacker avrebbe sfruttato Claude, il chatbot sviluppato da Anthropic, per orchestrare una serie di attacchi contro agenzie governative messicane, con il risultato di sottrarre circa 150 GB di dati sensibili, tra cui informazioni fiscali e registri elettorali.

Una vicenda che, se confermata nei suoi dettagli più critici, rappresenterebbe uno dei casi più significativi di utilizzo improprio di un modello IA commerciale per attività di cybercriminalità su larga scala.

Offerta

Novità! DREAME L10s Ultra Gen 3

Kit Robot Aspirapolvere e Lavapavimenti, Aspirazione da 25.000 Pa, Spazzola

455€ invece di 599€
-24%

Claude di Anthropic utilizzato per rubare dati al governo messicano

Secondo quanto riscontrato dalla società israeliana di sicurezza informatica Gambit Security, l’attività malevola sarebbe iniziata a dicembre e sarebbe proseguita per circa un mese.

L’attaccante, rimasto anonimo, avrebbe utilizzato prompt in spagnolo per chiedere a Claude di individuare vulnerabilità nelle reti governative, scrivere script per sfruttarle, suggerire modalità per automatizzare l’esfiltrazione dei dati, nonché generare report operativi dettagliati con obbiettivi e credenziali da utilizzare.

In totale, secondo i ricercatori, sarebbero stati sottratti dati relativi a 195 milioni di registri fiscali, oltre a registri elettorali, credenziali di dipendenti pubblici e documenti dell’anagrafe civile.

Le agenzie coinvolte includerebbero l’autorità fiscale federale messicana, l’istituto elettorale nazionale, governi statali come Jalisco, Michoacán e Tamaulipas, oltre ad altri enti locali. Va però sottolineato che diverse istituzioni hanno negato di aver subito violazioni o di aver rilevato accessi non autorizzati nei propri sistemi.

Un aspetto particolarmente delicato riguarda il modo in cui l’hacker sarebbe riuscito a superare i sistemi di sicurezza del chatbot di Anthropic. Inizialmente Claude avrebbe rifiutato le richieste esplicitamente malevole, segnalando (ad esempio) che l’eliminazione dei log e della cronologia dei comandi rappresentava un chiaro campanello d’allarme, incompatibile con una legittima attività di bug bounty.

Successivamente però, l’attaccante avrebbe cambiato strategia, fornendo al modello istruzioni strutturate e manuali dettagliati per aggirare i limiti imposti: un vero e proprio jailbreak, che avrebbe consentito al sistema di produrre migliaia di report tecnici pronti all’uso.

Anthropic ha dichiarato di aver indagato sull’accaduto, interrotto le attività e bannato gli account coinvolti; l’azienda ha inoltre ribadito che il suo modello più recente, Claude Opus 4.6, integra meccanismi aggiuntivi per bloccare abusi di questo tipo. Resta tuttavia il fatto che, almeno secondo quanto emerso dalla ricerca di Gambit, il sistema sarebbe stato aggirato per un periodo prolungato.

La vicenda assume contorni ancora più complessi considerando che l’hacker avrebbe utilizzato anche ChatGPT per integrare alcune informazioni operative, ad esempio per comprendere come muoversi lateralmente nelle reti informatiche o calcolare la probabilità di essere rilevato.

OpenAI ha dichiarato di aver identificato tentativi di utilizzo dei propri modelli in violazione delle policy e di aver bloccato gli account associati all’attaccante, sottolineando che i sistemi si sarebbero rifiutati di fornire supporto alle richieste illecite.

Quello che emerge, al di là delle responsabilità specifiche ancora da chiarire, è un quadro che molti esperti di sicurezza avevano già ipotizzato: i modelli generativi avanzati possono diventare moltiplicatori di capacità anche per attori malevoli, accelerando processi di analisi delle vulnerabilità, automazione degli attacchi e produzione di documentazione tecnica operativa.

Non si tratta ovviamente di strumenti progettati per attaccare, ma la loro versatilità e competenza tecnica li rende potenzialmente sfruttabili, soprattutto se i meccanismi di protezione vengono aggirati con tecniche di prompt engeneering sofisticate.

Il caso messicano si inserisce in una tendenza più ampia, nelle ultime settimane altri report hanno evidenziato l’uso dell’intelligenza artificiale per attacchi contro infrastrutture digitali in diversi Paesi, e se da un lato le aziende IA investono in guardrail sempre più robusti, dall’altro i cybercriminali continuano a sperimentare nuove modalità di abuso.

Al momento ci sono diverse informazioni mancanti, non sappiamo chi sia l’hacker, se faccia parte di un gruppo specifico (magari legato a uno stato straniero) e non è chiaro come siano stati utilizzati i dati sottratti con l’ausilio del chatbot di Anthropic.

Resta però un dato evidente, la sicurezza dei modelli IA non può più essere considerata un aspetto secondario o puramente teorico; ogni evoluzione nelle capacità di questi strumenti comporta inevitabilmente nuove superfici di attacco e nuove responsabilità per chi li sviluppa.

Nei prossimi mesi sarà interessante capire se questo episodio porterà a un inasprimento delle misure di sicurezza, a nuove policy di utilizzo o addirittura a interventi regolatori più stringenti.