Dopo averne presentato il progetto lo scorso gennaio, l’IA Italia è stata annunciata alcune ore fa, adesso disponibile e pronta per essere utilizzata. Si tratta nello specifico di un Foundation Large Language Model nazionale, cioè addestrato da zero in italiano, un modello linguistico di grandi dimensioni gratuito e open source che usa reti neurali profonde per comprendere ed essere utile per generare testi, dare risposte e altro. Una specie di ChatGPT italiano, potenzialmente.

Perché al momento Italia è solo alla prima versione, con un bagaglio di 9 miliardi di parametri, una finestra di contesto di 4.096 token e un vocabolario di 50.000 token (i token sono qui da considerare come parti del discorso, unità linguistiche: sia lessemi che espressioni regolari), ha sottolineato iGenius, l’azienda che l’ha sviluppato con il supporto del supercomputer Leonardo e del consorzio interuniversitario italiano Cineca.

Modello IA Italia: addestramento e sicurezza

Che Italia sia un modello in via di sviluppo lo si intuisce dal numero di parametri, solo 9 miliardi; GPT-3, che è stato rilasciato nel 2020, ne contava 175 miliardi, Gemini Ultra di Google ben 540 miliardi, per inciso. I parametri, in questo caso, indicano le connessioni possibili fra i “nodi” delle reti neurali”, una sorta di sinapsi per fare un paragone con il cervello umano: più ce ne sono più un modello di intelligenza artificiale è accurato e capace.

Sviluppato da iGenius in 5 mesi, un’azienda italiana specializzata in ricerca e sviluppo di tecnologie di intelligenza artificiale generativa, Italia è il primo modello linguistico di grandi dimensioni addestrato esclusivamente in italiano e quindi capace di comprendere le varie sfumature linguistiche e culturali della nostra lingua, promette iGenius.

Sono state utilizzate per questo sorgenti eterogenee, sia pubbliche, che dati sintetici e contenuti di settore forniti da vari partner di iGenius, che ha detto di aver addestrato Italia su oltre mille miliardi di parole. L’archivio storico di articoli della società del gruppo Monrif Editoriale Nazionale, con cui è stata stretta una collaborazione, sarà utile come fonte integrativa per migliorare Italia, estendendone i dati per aumentarne il livello di conoscenza e le capacità conversazionali.

Per quanto riguarda la sicurezza e l’integrità etica dei contenuti, iGenius sottolinea l’utilizzo di filtri di sicurezza specifici con cui sono stati esclusi dall’addestramento contenuti sensibili, espliciti o potenzialmente a rischio di bias. Hanno contribuito a rendere Italia uno strumento preciso e sicuro anche l’adozione di tecniche di data cleaning e un’attenzione alla sicurezza dei dati e all’affidabilità delle informazioni.

Come funziona l’IA Italia

Pur essendo pensato per le aziende, in primis servizi finanziari e pubblica amministrazione, Italia è scaricabile direttamente dal sito web di iGenius compilando un formulario con alcuni dati. Considerando che al momento non è possibile effettuare il download usando client di posta elettronica comuni (nel momento in cui scriviamo non accetta né Gmail, né Outlook; siamo riusciti tuttavia con una PEC Aruba), conforta sapere che prossimamente sarà disponibile anche sulla piattaforma open source Hugging Face e su altre piattaforme di sviluppo di prodotti di intelligenza artificiale.

Lo hanno già provato i colleghi di Repubblica, non con particolare soddisfazione considerando i molti errori riscontrati: “Sicuramente il “bias” nazionale è piuttosto palese, il rilancio della propaganda italiana è evidentemente tra le cose buone. Errori ne ha fatti molti, sia di informazioni sia di logica e di calcolo matematico, ma le risposte, giuste o sbagliate che siano, sono probabilmente scritte in un italiano migliore di quanto facciano ChatGPT & Co”.

iGenius ha tuttavia specificato che in futuro saranno disponibili altre versioni migliori e più aggiornate di Italia, che sarà anche poliglotta in una prossima variante multilingue. Per maggiori informazioni vi rimandiamo alla pagina dedicata del sito web di iGenius.

