Negli ultimi anni l’intelligenza artificiale generativa ha catalizzato quasi completamente l’attenzione di aziende, investitori e pubblico, ma secondo Yann LeCun questa direzione rappresenta, almeno in parte, un vicolo cieco. Dal palco dell’AI House di Davos, durante il World Economic Forum, il premio Turing ha espresso una posizione netta: affidarsi quasi esclusivamente ai chatbot e ai modelli di grandi dimensioni non porterà mai alla vera intelligenza artificiale generale (AGI).

Intervistato da Marc Pollefeys dell’ETH di Zurigo, LeCun (ex Meta e oggi alla guida della neonata AMI Labs) ha messo in discussione l’entusiasmo della Silicon Valley per gli LLM, sostenendo che questi sistemi, per quanto impressionanti, non son in grado di comprendere davvero il mondo reale.

Perché gli LLM non possono conoscere la realtà fisica

Secondo LeCun il problema di fondo è strutturale, il linguaggio è un dominio discreto, artificiale e già organizzato, mentre il mondo fisico è continuo, rumoroso, tridimensionale e imprevedibile; un sistema addestrato prevalentemente su testo o immagini statiche, per quanto sofisticato, non possiede un vero modello del mondo.

Non si tratta, come spesso sottolineato dallo stesso LeCun, di negare l’utilità pratica degli LLM, questi strumenti funzionano e hanno applicazioni concrete; il limite però, emerge quando diventano l’unica strada percorsa dall’industria, spesso più per timore competitivo che per reale convinzione scientifica. Tutte le aziende finiscono così per lavorare nello stesso solco, rimanendo bloccate su una tecnologia che non è adatta a risolvere ogni problema.

L’esempio della guida e il senso comune che manca alle macchine

Per spiegare la distanza tra intelligenza umana e artificiale, LeCun porta un esempio tanto semplice quanto efficace: un diciassettenne può imparare a guidare un auto in una ventina di ore, le IA invece, pur addestrate su milioni di ore di dati di guida, non riescono ancora a raggiungere un’affidabilità paragonabile, soprattutto quando si parla di generalizzazione e di guida autonoma di livello 5.

La differenza sta nel modo di apprendere, gli esseri umani costruiscono modelli mentali di causa-effetto, mentre i sistemi attuali si basano su correlazioni statistiche; un bambino è in grado di caricare una lavastoviglie o sgomberare un tavolo anche senza averlo mai fatto prima, perché comprende concetti come gravità, spazio e permanenza degli oggetti. I robot, privi di questo senso comune, falliscono non appena escono dal loro dominio di addestramento.

JEPA e V-JEPA 2

La risposta tecnica proposta da LeCun non passa dai modelli generativi che cercano di prevedere il prossimo pixel o il prossimo frame video, un approccio considerato costoso e poco utile; al contrario, il futuro dell’IA dovrebbe basarsi su World Model, architetture capaci di rappresentare il mondo in modo astratto e funzionale all’azione.

In questo contesto si inseriscono le JEPA (Joint Embedding Predictive Architecture), questo sistema non genera immagini o video futuri nei minimi dettagli, ma prevede lo stato futuro del mondo in uno spazio di rappresentazione astratto, eliminando il rumore inutile.

Il paragone usato da LeCun è piuttosto intuitivo: quando pianifichiamo un viaggio da New York a Parigi non pensiamo a ogni singolo movimento muscolare, ma a una sequenza gerarchica di obbiettivi; allo stesso modo, un braccio robotico che deve afferrare un bicchiere non ha bisogno di prevedere i riflessi di luce sul tavolo, ma solo la posizione finale della mano e dell’oggetto.

Il limite dell’hardware e il tema dell’energia

Il problema però non è solo algoritmico, LeCun sottolinea come l’hardware attuale sia profondamente inefficace rispetto al cervello umano, quest’ultimo funziona con circa 20 watt, mentre i data center necessari per addestrare e far funzionare i modelli moderni consumano quantità di energia enormi.

La differenza è architetturale: nel cervello, memoria e calcolo sono co-locati, mentre nei computer moderni sono separati, dando origine al ben noto collo di bottiglia di Von Neumann. Il cervello lavora a basse frequenze, intorno ai 10 Hz, ma è massicciamente parallelo; i chip di silicio al contrario, operano a gigahertz ma in modo molto più seriale.

Il futuro dell’Intelligenza Fisica secondo LeCun

Guardando al futuro, LeCun ipotizza un ritorno a forme di calcolo analogiche o basate su nuovi materiali, come la spintronica (tecnologia di memorizzazione ed elaborazione dell’informazione), capaci di offrire un parallelismo reale. Questo apre però a un’idea affascinante e inquietante: la mortalità delle macchine.

In un sistema analogico, ogni chip sarebbe fisicamente unico, un modello addestrato su un certo hardware potrebbe non essere trasferibile su un altro, rendendo la conoscenza di quella macchina non clonabile; quando l’hardware muore, muore anche al sua esperienza, proprio come accade con gli esseri viventi.

È con questa visione dell’intelligenza radicata nel mondo fisico che LeCun ha fondato AMI Labs (Advanced machine Intelligence Labs), valutata recentemente 3,5 miliardi di dollari, con l’obbiettivo di sviluppare World Model gerarchici capaci di pianificare e ragionare come animali ed esseri umani.

Se i modelli linguistici hanno in parte risolto grammatica e codice, la prossima rivoluzione, secondo LeCun, non sarà un chatbot più eloquente, ma una macchia che sappia davvero che lasciando andare un oggetto questo cadrà; e, soprattutto, che sappia decidere se vale la pena afferrarlo.