Nel settore dell’intelligenza artificiale NVIDIA non ha certo bisogno di presentazioni, l’azienda riveste un ruolo di spessore grazie all’enorme domanda di GPU per data center e soluzioni di calcolo avanzato, ma al momento si trova al centro di una controversia legale destinata a far discutere a lungo e che, come spesso accade in questi casi, rischia di avere implicazioni ben più ampie del singolo procedimento giudiziario. Un gruppo di autori ha infatti ampliato in modo significativo una class action già avviata all’inizio del 2024, accusando l’azienda di aver utilizzato consapevolmente milioni di libri piratati per l’addestramento dei propri modelli di intelligenza artificiale, arrivando a contattare direttamente Anna’s Archive, una delle più grandi shadow library attualmente online.
Indice:
- Dalla vendita di GPU ai modelli proprietari: il contesto
- La denuncia modificata con l’entrata in scena di Anna’s Archive
- Luce verde per NVIDIA nonostante gli avvertimenti
- Non solo Anna’s Archive, ma anche LibGen, Sci-Hub e Z-Library
- Accuse di violazione diretta, indiretta e contributiva
- Uno scenario ancora aperto
Dalla vendita di GPU ai modelli proprietari: il contesto
Come molti di voi avranno notato, NVIDIA non è più soltanto il principale fornitore di hardware per l’IA, ma da tempo sta sviluppando anche modelli proprietari, tra cui NeMo, Megatron, Retro-48B e InstructRetro, addestrati sfruttando infrastrutture interne e, ovviamente, enormi quantità di dati testuali. Un approccio del tutto simile a quello adottato da altri colossi tecnologici, ma che da tempo è finito sotto la lente dei titolari dei diritti d’autore.
Proprio su questo fronte, già all’inizio del 2024 diversi autori avevano citato NVIDIA in giudizio, sostenendo che i suoi modelli fossero stati addestrati utilizzando il dataset Books3, noto per includere opere protette da copyright provenienti da fonti non autorizzate come Bibliotik; in quell’occasione, NVIDIA aveva respinto le accuse appellandosi al fair use, affermando che i testi non vengono conservati o riprodotti come opere, ma trasformati in correlazioni statistiche utili al funzionamento dei modelli. Una linea difensiva che, almeno per ora, non è bastata a chiudere la questione.
La denuncia modificata con l’entrata in scena di Anna’s Archive
La novità più rilevante arriva da una denuncia modificata depositata dagli autori venerdì scorso, che amplia in modo significativo il perimetro delle accuse. Secondo quanto riportato, durante la fase istruttoria sarebbero emerse email e comunicazioni interne che suggerirebbero come membri del team di data strategy di NVIDIA abbiano contattato direttamente Anna’s Archive, chiedendo informazioni sull’accesso ad alta velocità ai contenuti della biblioteca ombra.
Nella denuncia si legge che, spinta dalle pressioni competitive del settore IA, NVIDIA avrebbe cercato nuove fonti di dati su larga scala, arrivando a valutare l’inclusione dell’intero archivio di Anna’s Archive nei dataset di pre addestramento per i propri LLM. Una scelta che, sempre secondo gli autori, sarebbe avvenuta nella piena consapevolezza della natura illegale dei contenuti.
Luce verde per NVIDIA nonostante gli avvertimenti
Un passaggio particolarmente delicato riguarda proprio i rapporti tra NVIDIA e Anna’s Archive. Stando agli atti, la biblioteca pirata avrebbe esplicitamente chiarito che le proprie collezioni erano acquisite e gestite illegalmente, arrivando persino a chiedere se l’azienda disponesse delle autorizzazioni interne necessarie per procedere.
Secondo la denuncia, la risposta sarebbe arrivata nel giro di una settimana, la dirigenza di NVIDIA avrebbe dato il via libera, consentendo l’accesso a un archivio stimato in circa 500 TB di dati, comprendente milioni di libri protetti da copyright, inclusi volumi normalmente accessibili solo tramite il sistema digitale di Internet Archive.
Non è chiaro, almeno sulla base dei contenuti citati, se NVIDIA abbia effettivamente pagato Anna’s Archive per l’accesso ad alta velocità ai dati, servizio che (sempre secondo la denuncia) sarebbe offerto a fronte di compensi molto elevati.
Non solo Anna’s Archive, ma anche LibGen, Sci-Hub e Z-Library
Come spesso accade in questo tipo di procedimenti, il quadro delineato dagli autori va ben oltre un singolo archivio. La denuncia modificata sostiene infatti che NVIDIA avrebbe utilizzato anche altre fonti non autorizzate, tra cui LibGen, Sci-Hub e Z-Library, ampliando ulteriormente l’elenco delle presunte violazioni.
Un aspetto che, ovviamente, pesa non poco sull’impianto accusatorio, soprattutto alla luce delle dimensioni e delle risorse dell’azienda, definita più volte negli atti come una società da mille miliardi di dollari.
Accuse di violazione diretta, indiretta e contributiva
Le contestazioni non si fermano all’uso interno dei contenuti, gli autori sostengono che NVIDIA avrebbe anche distribuito script e strumenti ai propri clienti enterprise, facilitando il download automatico di dataset come The Pile, che includono a loro volta Books3 e altro materiale protetto da copyright.
Questo comportamento darebbe origine, secondo i querelanti, a nuove accuse di violazione diretta, contributiva e indiretta, con NVIDIA accusata di aver tratto benefici economici dall’agevolazione dell’accesso a dataset piratati da parte dei clienti.
Uno scenario ancora aperto
Sulla base di questa e altre rivendicazioni, gli autori chiedono ora un risarcimento che potrebbe estendersi a centinaia di soggetti, qualora la class action venisse ulteriormente ampliata; per quanto ne sappiamo, si tratta anche della prima volta in cui viene resa pubblica una presunta corrispondenza diretta tra una grande azienda tecnologica statunitense e Anna’s Archive, dettaglio che contribuisce ad aumentare ulteriormente la visibilità e la controversia attorno alla shadow library, recentemente colpita anche dalla perdita di diversi nomi di dominio.
Come spesso accade in questi casi, bisognerà attendere per capire come evolverà la vicenda e quali potrebbero essere le conseguenze concrete, non solo per NVIDIA, ma per l’intero settore dell’intelligenza artificiale e per il delicato equilibrio tra innovazione tecnologica e tutela del diritto d’autore.
- Adobe è stata accusata di aver utilizzato libri piratati per addestrare l’IA
- Anthropic è stata accusata di aver usato libri piratati per addestrare Claude
- AI e copyright: Anthropic pagherà la cifra record di 1,5 miliardi di dollari per chiudere la causa con gli autori
- Meta avrebbe addestrato la propria intelligenza artificiale con libri piratati
I nostri contenuti da non perdere:
- 🔝 Importante: PosteID a pagamento? Ecco come disdire lo SPID di Poste Italiane
- 💰 Risparmia sulla tecnologia: segui Prezzi.Tech su Telegram, il miglior canale di offerte
- 🏡 Seguici anche sul canale Telegram Offerte.Casa per sconti su prodotti di largo consumo

