Siamo ormai letteralmente circondati dall’intelligenza artificiale, tutte le aziende tecnologiche si sono già cimentate da tempo ormai nel rilascio dei propri modelli, facendo a gara per attirare a sé quanti più utenti possibile. Questi modelli tuttavia, non nascono già dotati delle loro capacità, ma necessitano di essere addestrati.
In passato abbiamo già visto accuse di vario genere, violazione di dati, di copyrght e altro, presumibilmente commesse dalle realtà aziendali per addestrare le proprie IA; alcuni di voi potrebbero ricordare come, l’estate scorsa, Antropic fosse stata accusata di aver usato libri piratati per addestrare Claude. Ora la stessa sorte tocca a Meta.
Meta avrebbe scaricato terabyte di libri da torrent per addestrare la propria intelligenza artificiale
Meta, la società madre di Facebook e Instagram, è al centro di una controversia legale per l’uso di libri piratati, scaricati da torrent, utilizzati per l’addestramento dei suoi modelli di intelligenza artificiale. Secondo una causa intentata da alcuni autori, l’azienda avrebbe scaricato “almeno 81,7 terabyte di dati su più librerie ombra tramite il sito Anna’s Archive, inclusi almeno 35,7 terabyte di dati da Z-Library e LibGen” per sviluppare il suo modello linguistico Llama.
Le comunicazioni interne di Meta rivelano che i dirigenti erano consapevoli della natura illecita dei dati utilizzati tanto che, per esempio, un’email esprimeva disagio riguardo l’utilizzo di torrent da un laptop aziendale, sottolineando la necessità di evitare “copertura mediatica che suggerisca che abbiamo utilizzato un dataset che sappiamo essere piratato“.
La società ha difeso le sue pratiche sostenendo che l’utilizzo di materiali disponibili al pubblico per l’addestramento dell’IA rientra nell’uso legittimo, tuttavia gli autori coinvolti nella causa affermano che l’utilizzo non autorizzato delle loro opere viola i diritti d’autore e potrebbe compromettere i loro mezzi di sussistenza.
L’entità del sistema di torrenting illegale di Meta è sbalorditiva. Atti di pirateria dei dati di gran lunga inferiori (appena lo 0,008 percento della quantità di opere protette da copyright piratate da Meta) hanno portato i giudici a deferire la condotta all’ufficio del procuratore degli Stati Uniti per indagini penali.
Pare inoltre che Meta avesse tentato di nascondere le proprie tracce non utilizzando i server di Facebook durante il download del set di dati, per evitare il rischio che qualcuno rintracciasse il downloader dai server del popolare social network.
Ad ogni modo le indagini degli organismi competenti proseguiranno, basterà attendere per scoprire come si concluderà la vicenda.
- OpenAI pagherà per addestrare ChatGPT sui contenuti di importanti editori
- No, Microsoft non usa i documenti di Office per addestrare i suoi modelli IA
- Reddit vuole che Microsoft e altre aziende paghino per addestrare le IA con i suoi dati
- Gigabyte AI Top è la nuova soluzione per addestrare l’IA sul proprio computer
I nostri contenuti da non perdere:
- 🔝 Importante: Amazfit Active 2 è già scontato su Amazon per la Festa delle Offerte di Primavera
- 💰 Risparmia sulla tecnologia: segui Prezzi.Tech su Telegram, il miglior canale di offerte
- 🏡 Seguici anche sul canale Telegram Offerte.Casa per sconti su prodotti di largo consumo