In questi giorni DeepSeek ha allarmato la Silicon Valley con il rilascio del suo modello di intelligenza artificiale R1. La società cinese ha affermato di aver addestrato il modello utilizzando solo 2.048 schede grafiche H800 di NVIDIA, molto meno di quelle utilizzate dai colossi statunitensi come OpenAI, Google e Meta per offrire prestazioni confrontabili, ma potrebbe esserci un “trucco”.

Secondo quanto riportato da Bloomberg, i ricercatori di sicurezza di Microsoft hanno scoperto attività insolite alla fine del 2024 e sospettano che sviluppatori potenzialmente connessi a DeepSeek abbiano avuto accesso a grandi quantità di dati tramite l’API di OpenAI.

Gli sviluppatori possono utilizzare l’API per integrare i modelli di OpenAI nelle proprie applicazioni, ma “distillare” l’output di ChatGPT è una pratica contraria ai termini di utilizzo del servizio.

Nell’ambito dell’intelligenza artificiale, si parla di “distillazione” quando un modello più piccolo impara da uno più grande per ottenere risultati simili con meno risorse.

OpenAI ha risposto con la seguente dichiarazione:

“Sappiamo che le aziende della Repubblica popolare cinese – e altre – cercano costantemente di distillare i modelli delle principali società statunitensi di intelligenza artificiale. In qualità di sviluppatore leader di intelligenza artificiale, adottiamo contromisure per proteggere la nostra proprietà intellettuale, incluso un attento processo per decidere quali funzionalità avanzate includere nei modelli rilasciati.”

DeepSeek potrebbe aver “distillato” la conoscenza dai modelli di OpenAI

Quanto sta accadendo solleva ancora una volta questioni fondamentali sulla concorrenza nel settore dell’intelligenza artificiale. Gli esperti sottolineano che è prassi comune utilizzare l’output di modelli di aziende leader per addestrare i propri, ma il problema si pone quando questi superano il maestro.

La sfida per aziende come OpenAI è come mantenere il proprio vantaggio tecnologico rispetto a chi utilizza i loro modelli, ma a sua volta OpenAI è accusata di utilizzare contenuti protetti da copyright senza autorizzazione per addestrare i suoi modelli di intelligenza artificiale.