È stato battezzato ArtPrompt, ed è l’ultima frontiera per aggirare le misure di sicurezza dei modelli linguistici più avanzati, che non sono esattamene a prova di bomba.

A scoprire questa debolezza è stato un team congiunto di ricercatori delle università di Washington e di Chicago: l’equipe ha teorizzato e poi testato un metodo per mettere in difficoltà l’AI di ChatGPT, Gemini, Clause e Llama 2. E i risultati sono stati sorprendenti.

Prompt mascherati con l’ASCII Art

Il segreto sta nell’ingannare i chatbot camuffando le richieste che normalmente darebbero un esito negativo tramite due passaggi. Nel primo l’utente formula un prompt in cui i termini sensibili sono mascherati, in modo che l’AI non si rifiuti di fornire l’aiuto richiesto.

Poi, come una sorta di cavallo di Troia, la parola incriminata viene presentata al chatbot con una trascrizione grafica che utilizza i caratteri ASCII.

ChatGPT può aiutare a costruire una bomba: basta chiederlo con l'ASCII art 1

A questo punto si domanda all’AI di leggere ogni carattere realizzato in ASCII art, comporre la parola risultante e poi fare uso del risultato per completare il prompt iniziale. Et voilà, il gioco è fatto: all’improvviso ChatGPT può fornire suggerimenti su come costruire una bomba o stampare soldi falsi (per citare i due esempi inclusi nella ricerca).

Lo studio ha infatti dimostrato come tutti i sistemi presi in esame (ovvero ChatGPT, Gemini, Clause e Llama 2) con l’adozione di questo escamotage abbiano fornito le indicazioni richieste anche se queste costituivano una violazione delle loro misure di sicurezza. La procedura, oltretutto, risulta replicabile con più parole all’interno dello stesso prompt, senza particolari limiti.

Un metodo tanto semplice quanto pericoloso

ArtPrompt, fanno notare i ricercatori, pur non essendo l’unico metodo per forzare i limiti di questi sistemi ha però un vantaggio competitivo importante rispetto a quelli già noti, e cioè una maggiore linearità e facilità di impiego, dal momento che la creazione dei prompt può essere automatizzata: si tratta, in fondo, di chiedere qualcosa premurandosi di tradurre prima i passaggi problematici in ASCII art. E come se non bastasse il risultato finale non è solo cibo per AI, ma risulta leggibile anche agli esseri umani.

L’intento della ricerca è evidenziare i limiti strutturali dei modelli linguistici avanzati per permettere agli sviluppatori di intervenire e rimediare alle debolezze che rendono questi strumenti potenzialmente molto pericolosi se utilizzati da malintenzionati: un crescente numero di gruppi hacker li sta già impiegando per perfezionare i propri attacchi informatici.