Una poesia può ingannare l'IA: lo rivela uno studio italiano

La poesia come arma per aggirare i sistemi di sicurezza dell’intelligenza artificiale. Può sembrare paradossale, ma è esattamente ciò che emerge da una nuova ricerca italiana. Uno studio condotto da DEXAI – Icaro Lab, Università La Sapienza di Roma e Scuola Superiore Sant’Anna rivela infatti che una semplice riformulazione poetica di richieste dannose permette di eludere i filtri dei principali modelli linguistici nel 62% dei casi.

Il lavoro, intitolato “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models”, ha testato 25 modelli, sia proprietari che open source, da OpenAI a Anthropic, da Google a Meta, fino a Mistral, Qwen e DeepSeek. I risultati sono sorprendenti, infatti in alcuni casi e in particolare con alcune versioni di Gemini, il tasso di elusione sfiora addirittura il 100%, evidenziando una vulnerabilità trasversale.

Offerta

Uno studio italiano mostra come semplici poesie possano eludere i filtri dell'IA 1

MacBook Air 13'', M4 (2025), 512GB

1249€ invece di 1399€

-11%

Amazon 🛒

Versi e metafore: il “punto cieco” dei filtri di sicurezza

Secondo i ricercatori, la chiave del problema è il modo in cui i sistemi di sicurezza riconoscono (o meglio, non riconoscono) il linguaggio poetico. Le IA sono addestrate a intercettare richieste pericolose espresse in modo diretto e con formulazioni comuni; quando però la stessa richiesta viene espressa in forma poetica, metaforica o stilisticamente diversa, i filtri “non la vedono” più.

Il modello, invece, comprende comunque il contenuto semantico e prova a soddisfare la richiesta. È lì che nasce il problema: l’IA capisce la domanda, ma la sicurezza non interviene.

Lo studio dimostra che non serve alcuna tecnica complessa di prompt engineering: basta un unico messaggio in versi per ottenere risposte potenzialmente dannose in ambiti sensibili come cybersecurity, bioterrorismo, privacy o manipolazione psicologica.

I modelli più avanzati sono quelli più vulnerabili

Un dato che ha sorpreso i ricercatori è la relazione tra potenza del modello e vulnerabilità. I modelli più avanzati, con capacità di comprensione profonda del linguaggio, risultano paradossalmente più fragili. Infatti, GPT-5 nano resiste completamente all’attacco (con lo 0% di successo), mentre alcune versioni di Qwen, DeepSeek, cedono nel 70-100% dei casi.

L’ipotesi degli autori è che i modelli grandi siano molto più bravi a cogliere il significato sotteso della poesia, e quindi rispondono con maggior precisione… anche quando non dovrebbero.

Gli studiosi parlano chiaramente di un fenomeno “strutturale”: non riguarda una singola azienda o un singolo modello, ma il modo stesso in cui le IA generative comprendono il linguaggio.

Ancora più sorprendente, la vulnerabilità non richiede creatività umana: i ricercatori hanno tradotto in versi 1.200 prompt del benchmark MLCommons con un semplice meta-prompt standardizzato, ottenendo tassi di jailbreak fino a 18 volte superiori rispetto alla prosa.

In altre parole: non serve scrivere una bella poesia, basta scrivere “in poesia”.