La questione dell’addestramento dei modelli di intelligenza artificiale continua a essere tutt’altro che lineare e, come spesso accade, alcune decisioni interne possono trasformarsi rapidamente in un boomerang legale: è esattamente ciò che è successo a OpenAI che ora si trova costretta, per ordine di un tribunale USA, a spiegare i reali motivi per cui abbia eliminato due dei suoi set di dati più controversi, noti come Books1 e Books2, composti da opere provenienti dalla famigerata libreria pirata LibGen.

Una vicenda che potrebbe diventare un caso simbolo, non solo per l’impatto sull’azienda che ha dato vita a ChatGPT, ma per tutto il settore dell’IA generativa.

La storia dei set di dati spariti

Secondo quanto emerso negli atti del processo, OpenAI ha effettivamente creato i due dataset nel 2021, grazie al lavoro di alcuni ex dipendenti che avevano rastrellato il web, e in particolare LibGen, per costruire un archivio di test da utilizzare per l’addestramento dei modelli.

La stessa OpenAI ha sempre ammesso di aver cancellato quei dataset prima dell’arrivo di ChatGPT nel 2022, giustificando la decisione con un vago non utilizzo; peccato che, quando gli autori coinvolti nella class action hanno chiesto di visionare le comunicazioni interne relative al non utilizzo, la società abbia improvvisamente cambiato tono sostenendo che quei motivi sarebbero coperti dal segreto professionale. Un rapido dietrofront che non ha convinto il giudice.

E infatti, la giudice distrettuale Ona Wang ha ordinato a OpenAI di consegnare tutte le comunicazioni interne, comprese quelle con gli avvocati, legate alla cancellazione dei dataset entro l’8 dicembre, oltre a mettere a disposizione gli stessi avvocati per la deposizione entro il 19 dicembre.

Il giudice non ha apprezzato la confusione di OpenAI

Il punto centrale della controversia è semplice, OpenAI non può dire che il non utilizzo non fosse un motivo per la cancellazione e, contemporaneamente, sostenere che quel motivo sia privilegiato e quindi non accessibile.

Una strategia che il giudice ha descritto come una sorta di bersaglio mobile, tale da minare la credibilità dell’azienda. Non solo, Wang ha anche rilevato come la maggior parte delle comunicazioni nel canale Slack excise-libgen non fossero minimamente legate a consulenze legali, da cui la decisione di revocare il privilegio.

Un dettaglio che rischia di essere determinante, soprattutto perché, come la stessa giudice ha ricordato, molte di queste prove potrebbero essere utilizzate per valutare se OpenAI abbia violato il copyright in modo intenzionale; in quel caso, le sanzioni potrebbero arrivare fino a 150.000 dollari per ogni opera violata.

Il precedente Anthropic e un paragone che potrebbe ritorcersi contro OpenAI

A complicare il quadro c’è anche il recente accordo record di Anthropic, che ha accettato un maxi risarcimento dopo un caso simile, e il fatto che lo stesso Dario Amodei (ora CEO di Anthropic), secondo alcuni atti, potrebbe aver contribuito alla creazione dei dataset incriminati quando era ancora in OpenAI. Non sorprende dunque che gli autori lo considerino una figura chiave per far luce sulla vicenda.

Il giudice inoltre, ha criticato OpenAI per aver citato in maniera bizzarra, e soprattutto fuorviante, una sentenza che riguardava proprio Anthropic, sostenendo che la decisione autorizzasse il download di libri pirata se successivamente usati per addestramento; una lettura questa, completamente smentita dal giudice William Alsup, che nella sua sentenza descrive tali attività come intrinsecamente e irrimediabilmente lesive. Insomma, un autogol in piena regola.

Cosa rischia OpenAI e perché gli autori sembrano sempre più fiduciosi

È proprio su questi dettagli che gli autori sperano di costruire la loro vittoria, se emergesse che OpenAI ha cancellato i dataset non perché inutilizzati, ma perché troppo rischiosi dal punto di vista legale, la tesi della violazione intenzionale acquisirebbe molto più peso.

Ed è qui che la situazione potrebbe diventare davvero pesante: non solo danni economici più alti, ma anche un colpo reputazionale in un momento in cui la concorrenza sta accelerando sul fronte dell’IA generativa e dei modelli di nuova generazione.

La sensazione, come sempre quando ci si trova davanti a documenti interni che rischiano di emergere pubblicamente, è che questo possa rappresentare uno spartiacque; le normative sul copyright applicate agli LLM sono ancora in piena evoluzione e ciò che emergerà dalle deposizioni e dalle comunicazioni interne di OpenAI potrebbe influenzare non solo l’esito della causa, ma anche il modo in cui i dataset verranno raccolti e gestiti in futuro.