La poesia come arma per aggirare i sistemi di sicurezza dell’intelligenza artificiale. Può sembrare paradossale, ma è esattamente ciò che emerge da una nuova ricerca italiana. Uno studio condotto da DEXAI – Icaro Lab, Università La Sapienza di Roma e Scuola Superiore Sant’Anna rivela infatti che una semplice riformulazione poetica di richieste dannose permette di eludere i filtri dei principali modelli linguistici nel 62% dei casi.
Il lavoro, intitolato “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models”, ha testato 25 modelli, sia proprietari che open source, da OpenAI a Anthropic, da Google a Meta, fino a Mistral, Qwen e DeepSeek. I risultati sono sorprendenti, infatti in alcuni casi e in particolare con alcune versioni di Gemini, il tasso di elusione sfiora addirittura il 100%, evidenziando una vulnerabilità trasversale.
Versi e metafore: il “punto cieco” dei filtri di sicurezza
Secondo i ricercatori, la chiave del problema è il modo in cui i sistemi di sicurezza riconoscono (o meglio, non riconoscono) il linguaggio poetico. Le IA sono addestrate a intercettare richieste pericolose espresse in modo diretto e con formulazioni comuni; quando però la stessa richiesta viene espressa in forma poetica, metaforica o stilisticamente diversa, i filtri “non la vedono” più.
Il modello, invece, comprende comunque il contenuto semantico e prova a soddisfare la richiesta. È lì che nasce il problema: l’IA capisce la domanda, ma la sicurezza non interviene.
Lo studio dimostra che non serve alcuna tecnica complessa di prompt engineering: basta un unico messaggio in versi per ottenere risposte potenzialmente dannose in ambiti sensibili come cybersecurity, bioterrorismo, privacy o manipolazione psicologica.
I modelli più avanzati sono quelli più vulnerabili
Un dato che ha sorpreso i ricercatori è la relazione tra potenza del modello e vulnerabilità. I modelli più avanzati, con capacità di comprensione profonda del linguaggio, risultano paradossalmente più fragili. Infatti, GPT-5 nano resiste completamente all’attacco (con lo 0% di successo), mentre alcune versioni di Qwen, DeepSeek, cedono nel 70-100% dei casi.
L’ipotesi degli autori è che i modelli grandi siano molto più bravi a cogliere il significato sotteso della poesia, e quindi rispondono con maggior precisione… anche quando non dovrebbero.
Gli studiosi parlano chiaramente di un fenomeno “strutturale”: non riguarda una singola azienda o un singolo modello, ma il modo stesso in cui le IA generative comprendono il linguaggio.
Ancora più sorprendente, la vulnerabilità non richiede creatività umana: i ricercatori hanno tradotto in versi 1.200 prompt del benchmark MLCommons con un semplice meta-prompt standardizzato, ottenendo tassi di jailbreak fino a 18 volte superiori rispetto alla prosa.
In altre parole: non serve scrivere una bella poesia, basta scrivere “in poesia”.
I nostri contenuti da non perdere:
- 🔝 Importante: iPhone 17 "a soli 599€"? È possibile con una promo Esselunga
- 💻 Scegli bene e punta al sodo: ecco le migliori offerte MSI notebook business Black Friday 2025
- 💰 Risparmia sulla tecnologia: segui Prezzi.Tech su Telegram, il miglior canale di offerte
- 🏡 Seguici anche sul canale Telegram Offerte.Casa per sconti su prodotti di largo consumo

