La battaglia legale sull’addestramento dei modelli di intelligenza artificiale continua ad arricchirsi di nuovi capitoli e, questa volta, al centro della scena troviamo NVIDIA, che ha deciso di passare al contrattacco chiedendo a un tribunale federale della California l’archiviazione della versione ampliata della class action intentata da un gruppo di autori. Al centro della disputa, come molti di voi avranno già capito, c’è il presunto utilizzo di milioni di libri piratati per l’addestramento dei modelli IA dell’azienda.

Secondo NVIDIA tuttavia, le accuse sarebbero speculative, vaghe e giuridicamente insufficienti, basate più su supposizioni che su fatti concreti, tanto da non soddisfare i requisiti minimi richiesti per sostenere una violazione del diritto d’autore in sede giudiziaria.

Offerta

MacBook Air 13'', M4 (2025), 512GB

1199€ invece di 1399€
-14%

NVIDIA non ci sta e si oppone alla causa sull’addestramento dell’IA

Uno degli elementi centrali della denuncia modificata riguarda il presunto contatto tra NVIDIA e Anna’s Archive, noto archivio ombra che raccoglie un’enorme quantità di libri digitali. Gli autori sostengono che alcune email interne dimostrerebbero l’interesse di NVIDIA per un accesso ad alta velocità alla collezione, e che i dirigenti avrebbero dato il via libera a procedere nonostante fossero stati avvisati della natura illegale dei contenuti.

Secondo la difesa di NVIDIA però, qui emerge una lacuna fondamentale: non viene mai dimostrato che i libri degli autori coinvolti siano stati effettivamente scaricati o utilizzati; il semplice fatto di aver avuto un contatto, sottolinea l’azienda, non equivale né all’acquisizione dei materiali né tantomeno al loro impiego per l’addestramento dei modelli.

In altre parole, per NVIDIA è altrettanto plausibile che quei contenuti non siano mai entrati nei suoi dataset, rendendo l’intero impianto accusatorio troppo debole per reggere in tribunale.

Un altro punto su cui NVIDIA insiste particolarmente riguarda il linguaggio utilizzato nella denuncia. Gli autori infatti, farebbero ampio uso della formula legale upon information and belief (in base alle informazioni e alle convinzioni), che indica ipotesi ragionevoli ma non supportate da prove dirette.

Secondo il colosso dei chip, questo approccio confermerebbe la natura congetturale delle accuse, che si baserebbero su deduzioni generiche piuttosto che su elementi fattuali verificabili, come l’identificazione puntuale di opere specifiche utilizzate nei dataset di addestramento.

Se inizialmente il procedimento si concentrava sui modelli NeMo Megatron e sul dataset Books3, la denuncia aggiornata ha notevolmente allargato il perimetro, chiamando in causa generici NVIDIA LLM, modelli interni non identificati, un presunto NextlargeLLM e numerose altre biblioteche ombra, tra cui LibGen, Sci-Hub, Z-Library, Bibliotik e Pirate Library Mirror.

Secondo NVIDIA, questo ampliamento indiscriminato configurerebbe una vera e propria fishing expedition, ovvero un tentativo di ottenere accesso illimitato a informazioni interne senza una base solida, come dimostrerebbe anche l’ondata di richieste istruttorie presentate subito dopo il deposito della denuncia modificata.

La mozione affronta anche il caso dei modelli Nemotron-4, per i quali gli autori ipotizzano l’utilizzo delle loro opere semplicemente perché addestrati su dataset di grandi dimensioni contenenti libri. Un ragionamento che NVIDIA respinge con decisione, ribadendo che la dimensione del dataset non è una prova sufficiente per dimostrare la presenza di opere specifiche protette da copyright.

Senza indicazioni precise sui testi effettivamente utilizzati, sostiene l’azienda, le accuse non possono che rimanere nel campo delle speculazioni.

La versione ampliata della causa introduce anche nuove teorie legali, secondo cui NVIDIA avrebbe facilitato violazioni del copyright da parte di clienti, fornendo strumenti per scaricare dataset come The Pile; anche qui, la difesa evidenzia come non venga identificato alcun cliente specifico né dimostrata una conoscenza diretta di eventuali illeciti.

Inoltre, NVIDIA sottolinea che il framework NeMo è uno strumento generico, utilizzabile legittimamente con dati pubblici o concessi in licenza, e che la presenza di usi leciti escluderebbe una responsabilità automatica dell’azienda.

Nel complesso, NVIDIA chiede al tribunale di respingere tutte le nuove accuse introdotte nella denuncia modificata, comprese quelle legate ad Anna’s Archive e alle biblioteche ombra aggiuntive. Resta invece, almeno per il momento, fuori dalla mozione la contestazione originaria sull’uso del dataset Books3, che l’azienda intende affrontare in una fase successiva, probabilmente facendo leva sul principio del fair use.

La vicenda si inserisce in un contesto sempre più complesso, in cui tribunali e legislatori sono chiamati a definire i confini tra innovazione tecnologica e tutela del diritto d’autore; gli sviluppi futuri potrebbero dunque avere conseguenze rilevanti non solo per NVIDIA, ma per l’intero settore dell’intelligenza artificiale, che dovrà convivere sempre più spesso con questo tipo di contenziosi.

I nostri contenuti da non perdere: