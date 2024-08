I dati utilizzati dalle società per addestrare i loro modelli di intelligenza artificiale generativa continuano a sollevare polemiche e cause giudiziarie. Ora un gruppo di autori ha fatto causa ad Anthropic, l’azienda che sviluppa il chatbot Claude, accusandola di aver addestrato i suoi modelli di intelligenza artificiale su libri piratati e di aver “costruito un business multimiliardario rubando centinaia di migliaia di libri protetti da copyright”.

All’inizio di questo mese Anthropic ha confermato a Vox di aver utilizzato un vasto dataset open source noto come “The Pile” per addestrare Claude.

Gli autori affermano che all’interno di The Pile c’è anche Books3, un’enorme biblioteca di ebook protetti da copyright provenienti da siti Web pirata come Bibiliotik.

Gli autori riconoscono che Books3 è stato rimosso dalla versione “più ufficiale” di The Pile, tuttavia la versione originale è ancora presumibilmente disponibile altrove online.

Alcuni autori hanno fatto causa ad Anthropic per aver addestrato Claude con libri pirata

Gli autori che hanno fatto causa ad Anthropic includono Andrea Bartz (We Were Never Here), Charles Graeber (The Good Nurse) e Kirk Wallace Johnson (The Feather Thief) e pretendono che il tribunale della California richieda ad Anthropic di pagare i danni proposti e di impedire all’azienda di utilizzare materiale protetto da copyright in futuro.

Una recente indagine ha evidenziato che aziende come Apple e la stessa Anthropic hanno addestrato i loro modelli di intelligenza artificiale su migliaia di sottotitoli di video di YouTube recuperati disponibili all’interno di The Pile.

In precedenza gli autori hanno fatto causa anche ad aziende come OpenAI, Meta e Microsoft per il presunto utilizzo dei loro contenuti protetti da copyright per l’addestramento dei loro sistemi di intelligenza artificiale generativa.