Negli ultimi mesi Apple ha puntato con decisione sull’intelligenza artificiale made in Cupertino nel tentativo di recuperare terreno rispetto alla concorrenza, non soltanto all’interno di iOS 26 e dei suoi servizi proprietari, ma anche con la messa a disposizione di strumenti pensati per sviluppatori e ricercatori. Uno degli esempi più interessanti è senza dubbio FastVLM, il modello di linguaggio visivo (Visual Language Model) capace di generare sottotitoli e descrizioni video in tempo quasi reale.

Dopo il debutto iniziale su GitHub, dove era possibile scaricare i pacchetti ed eseguirli localmente tramite MLX (il framework di machine learning progettato specificamente per Apple Silicon), la novità è che oggi chiunque può provarlo direttamente dal browser grazie all’integrazione su Hugging Face.

Offerta

Apple MacBook Air 13'', M4 (2025)

849€ invece di 1149€
-26%

Cos’è FastVLM, perché è diverso dagli altri modelli e come provarlo

Apple ha presentato FastVLM come un progetto sperimentale ma con ambizioni molto concrete, il modello è in grado di:

  • elaborare immagini e flussi video ad altissima risoluzione con tempi di risposta fino a 85 volte più rapidi rispetto a soluzioni comparabili
  • mantenere una dimensione ridotta, la versione base risulta infatti oltre tre volte più leggera di modelli simili, pur garantendo un’accuratezza elevata
  • funzionare in locale senza la necessità di connessione ai server Apple, circostanza che apre scenari interessanti per privacy, efficienza e applicazioni su dispositivi mobili e indossabili

Non è un caso che Apple stia investendo tanto su questo fronte, l’obbiettivo è integrare modelli sempre più leggeri e performanti nei suoi prodotti, dagli iPhone agli Apple Watch, fino a futuri visori AR/VR e accessori dedicati.

Se fino a poco tempo fa serviva scaricare codice e configurare un ambiente ad hoc su Mac con chip Apple Silicon, oggi basta aprire la pagina dedicata su Hugging Face e caricare il modello FastVLM-0.5B (la versione più compatta con soli 0,5 miliardi di parametri).

Una volta caricato, il sistema inizia a funzionare direttamente nel browser, può descrivere l’aspetto della persona davanti alla webcam, riconoscere espressioni ed emozioni, leggere testi visibili nell’inquadratura, nominare oggetti mostrati alla fotocamera, e rispondere a prompt personalizzati. Chiaramente, il caricamento iniziale può richiedere qualche minuto a seconda dell’hardware, ma una volta pronto il modello opera con un’impressionante fluidità.

Gli utenti più curiosi possono persino collegare una camera virtuale e far scorrere un intero video nello strumento, il risultato è una descrizione quasi in tempo reale di ogni scena, con un livello di dettaglio tale da diventare perfino disorientante.

Al di là dell’esperimento, Apple dimostra come la latenza ridotta e la leggerezza del modello possano avere applicazioni molto più concrete, come strumenti di accessibilità con sottotitoli e descrizioni per utenti con disabilità visive o uditive, wearable e dispositivi mobili dove consumi energetici e velocità sono parametri cruciali, ma anche casi d’uso in ambito educativo o professionale, ad esempio per analisi di contenuti multimediali o generazione automatica di descrizioni contestuali.

Come già accennato, la versione disponibile su Hugging Face è la più leggera, ma Apple ha già confermato l’esistenza di varianti più potenti con 1,5 miliardi e addirittura 7 miliardi di parametri; queste ultime garantirebbero prestazioni superiori e una maggiore precisione semantica, ma al momento non sono pensate per girare direttamente nel browser.

È probabile che in futuro Apple punti a integrare proprio queste varianti più avanzate nei suoi sistemi operativi, sfruttando la potenza dei chip Apple Silicon di nuova generazione.

La possibilità di provare FastVLM direttamente nel browser segna un passo importante nel percorso di Apple verso un’intelligenza artificiale distribuita, sicura e integrata nell’esperienza quotidiana degli utenti; non si tratta soltanto di un esercizio di stile tecnologico, la scelta di puntare su modelli leggeri ed eseguibili in locale rappresenta un chiaro messaggio di continuità con la filosofia Apple, che da sempre pone privacy ed efficienza al centro delle sue strategie.

Gli utenti hanno dunque l’occasione di sperimentare da subito una tecnologia che, con ogni probabilità, vedremo presto integrata in prodotti reali; ciò che oggi appare come una semplice demo potrebbe presto trasformarsi in una funzionalità chiave dei prossimi dispositivi Apple.