Figure AI ha pubblicato una nuova dimostrazione che segna un passo significativo nella robotica umanoide: due robot Figure 03, equipaggiati con il sistema Helix-02, riordinano autonomamente una camera da letto completa in meno di due minuti, facendo il letto insieme, appendendo vestiti, svuotando il cestino e molto altro, il tutto senza alcun coordinatore centrale, senza messaggi scambiati tra i due e senza teleoperazione umana.

La cosa che colpisce di più non è solo la velocità o la varietà dei compiti eseguiti, ma il modo in cui i due robot interagiscono: si coordinano esclusivamente attraverso segnali visivi, esattamente come fanno due persone quando piegano insieme un lenzuolo. Brett Adcock, CEO di Figure AI, ha sottolineato su X che non esiste nessuno scambio esplicito di informazioni tra i robot: la coordinazione avviene tutta per via visiva, inclusi gesti come i cenni della testa.

Tecnicamente, si tratta di un’unica rete neurale appresa, una Vision-Language-Action policy, che traduce direttamente i pixel delle telecamere in azioni motorie. Nessun pianificatore condiviso, nessun sistema di messaggistica: ogni robot legge la scena attraverso le proprie telecamere e inferisce le intenzioni del partner dal solo movimento, in tempo reale. Secondo Figure AI, questa è la prima dimostrazione al mondo di una singola rete neurale appresa capace di eseguire locomanipulazione collaborativa multi-umanoide, direttamente dai pixel alle azioni.

Segui TuttoTech.net su Google Discover

Offerta

Samsung Galaxy S26 Ultra, 256GB

In omaggio Tab S10 FE+ 5G & Keyboard (da richiedere al ricevimento)

999€ invece di 1499€
-33%

Cosa fanno concretamente i robot e perché è difficile

Durante il reset della camera da letto, i due robot umanoidi Helix-02 eseguono una sequenza di compiti che richiedono l’integrazione completa di locomozione, destrezza manuale e percezione visiva. Aprono porte coordinando tutto il corpo localizzano la maniglia, la abbassano, tirano il battente mantenendo l’equilibrio e si riposizionano mentre la porta si apre. Spingono una sedia da ufficio sotto la scrivania generando forza controllata attraverso la postura e il posizionamento dei piedi, non solo con le braccia. Appendono un indumento su un appendiabiti con entrambe le mani, gestendo il tessuto che può piegarsi e nascondere i punti di contatto.

Tra i compiti più tecnici c’è la gestione delle cuffie: il robot le raccoglie, le riorientra in aria e le posiziona sullo stativo verticale. Chiude un libro aperto con controllo bimanuale preciso, gestendo un oggetto cerniera il cui peso si sposta mentre le pagine si piegano. Usa un pedale del cestino come se fosse un ulteriore end-effector, spostandosi sul peso di un solo piede per premere il pedale con l’altro mentre tiene il rifiuto con le mani.

Il momento più complesso è però il riassetto del letto: i due robot prendono posizione su lati opposti, sollevano il piumone, lo srotolano, lo distendono e correggono grinze e bordi arricciati mentre il tessuto si assesta a ogni trazione. Non esiste una divisione predefinita tra “la tua metà” e “la mia”: ciascun robot deve impegnarsi su un punto di contatto prevedendo al contempo cosa farà l’altro, aggiornando entrambe le previsioni decine di volte al secondo mentre il tessuto si piega, scivola e si tende sotto la trazione condivisa.

Le tre principali difficoltà

Tre difficoltà si sommano tra loro in modo particolarmente insidioso:

  • Prima: due robot umanoidi in una stanza non sono semplicemente due problemi singoli in parallelo ogni azione di un robot ridefinisce il problema che l’altro sta risolvendo;
  • Seconda: il piumone è un oggetto deformabile senza posa fissa, geometria rigida o presa canonica;
  • Terza: l’intera sequenza si svolge in due minuti, richiedendo migliaia di decisioni consecutive corrette, ognuna condizionata da una scena in rapido movimento che include un secondo umanoide che agisce sotto gli stessi vincoli.

Sul piano architetturale, Helix opera attraverso due sistemi complementari addestrati end-to-end: il Sistema 2, un modello linguistico visivo pre-addestrato su dati internet che lavora a 7-9 Hz per la comprensione della scena, e il Sistema 1, una policy visuo-motoria reattiva che traduce le rappresentazioni semantiche del primo sistema in azioni continue ad alta precisione a 200 Hz. È il primo VLA a produrre un controllo continuo ad alta frequenza dell’intero corpo superiore dell’umanoide, polsi, busto, testa e singole dita inclusi.

La continuità con le versioni precedenti è un dettaglio non trascurabile: lo stesso approccio di base aveva già permesso a un singolo Figure 03 di caricare una lavastoviglie in quattro minuti e di riordinare un soggiorno spruzzando e pulendo superfici, sistemando giocattoli e riposizionando cuscini. Il reset della camera da letto è semplicemente il livello successivo, aggiunto senza modificare l’algoritmo centrale ma introducendo nuovi dati di addestramento.

Sul fronte hardware, il Figure 03 è una riprogettazione completa rispetto alle generazioni precedenti: la nuova architettura delle telecamere offre un frame rate doppio, una latenza ridotta a un quarto e un campo visivo più ampio del 60%, tutti miglioramenti che si riflettono direttamente nella capacità di percepire e reagire a scene dinamiche condivise con un altro robot. La produzione avviene nello stabilimento BotQ, progettato interamente per la fabbricazione di umanoidi con una capacità iniziale di 12.000 unità all’anno, dove i robot stessi partecipano alla propria produzione occupandosi delle attività più ripetitive.

Spunta TuttoTech.net come fonte preferita su Google

I nostri contenuti da non perdere: