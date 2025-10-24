La tensione tra piattaforme di contenuti e aziende che sviluppano servizi basati sull’intelligenza artificiale torna a salire, Reddit ha infatti citato in giudizio Perplexity presso un tribunale federale di New York, accusandola di aver raccolto illegalmente e senza alcuna licenza post ed elementi multimediali provenienti dalla piattaforma per alimentarli direttamente nel proprio motore di ricerca IA. Secondo Reddit, si tratterebbe di una vera e propria elusione su scala industriale, con l’uso sistematico di strumenti di scraping per aggirare le barriere di sicurezza.

Reddit avrebbe colto Perplexity con le mani nel sacco

Le accuse ruotano intorno a un’operazione di monitoraggio condotta da Reddit, che avrebbe utilizzato un post marcato come prova: un contenuto creato in modo da essere visibile solo a Googlebot, ma non raggiungibile da alcun utente umano durante la normale navigazione. Eppure, questo stesso post sarebbe poi apparso tra le risposte generate da Perplexity, dimostrando secondo Reddit che il servizio avrebbe aggirato le limitazioni di accesso, probabilmente passando proprio attraverso Google come vettore secondario di scraping.

In pratica, se nessun utente poteva leggerlo e se non veniva mostrato nei feed o nelle ricerche interne, l’unico modo per recuperarlo sarebbe stato violare le protezioni poste dalla piattaforma.

Nella causa, Reddit arriva a definire la condotta come una forma di furto digitale, sostenendo che Perplexity avrebbe tratto profitto da contenuti privi di licenza, sfruttando a pagamento risposte costruite anche su materiali altrui. Il nodo centrale è l’accusa di violazione del Digital Millennium Copyright Act (DMCA), che tutela non soltanto i diritti d’autore ma anche le tecnologie volte a impedire un accesso non autorizzato.

Reddit fa inoltre notare che con Google e OpenAI esistono accordi regolari di licenza, mentre nel caso di Perplexity mancherebbe qualsiasi autorizzazione commerciale.

Perplexity ha respinto le accuse pubblicando una nota proprio su Reddit, sostenendo di non utilizzare i contenuti della piattaforma per l’addestramento dei propri modelli di base, ma limitandosi a riassumere discussioni già pubbliche, citando le fonti; Perplexity specifica inoltre che il suo modello Sonar è un fine tuning di Llama 3.3 70B di Meta, e dunque non sarebbe addestrato ex novo su dati provenienti da Reddit.

Tuttavia, come osservato nella stessa ricostruzione della vicenda, la posizione appare fragile considerando che esiste una componente commerciale, il servizio a pagamento offre comunque risposte derivate, anche indirettamente, da contenuti raccolti dalla piattaforma senza licenza.

Non è la prima volta che Reddit adotta una linea dura in difesa dei propri dati, il caso segue infatti una precedente azione legale contro Anthropic e arriva in un momento in cui la piattaforma sta espandendo Answers, il suo chatbot interno, proprio con l’obbiettivo di trattenere valore e monetizzazione all’interno dell’ecosistema di Reddit.

Secondo Perplexity invece, la causa rappresenterebbe anche un modo per aumentare il peso negoziale di Reddit nei futuri accordi commerciali con OpenAI e Google.

Se il tribunale dovesse considerare valido il test digitale come prova di aggiramento deliberato delle restrizioni, la causa potrebbe diventare un precedente importante su come i dati pubblici vengono raccolti o rielaborati dai servizi IA; al tempo stesso, il contesto sembra ormai seguire un passaggio chiave, i grandi repository di contenuti generati dagli utenti non intendono più considerarsi materia prima gratuita per i modelli IA.

È probabile che nei prossimi mesi assisteremo a un’ulteriore stretta regolamentare, in particolare sugli accordi di licensing e sui limiti tecnici allo scraping, con effetti diretti sulla concorrenza tra motori di ricerca IA.