Un documento di ricerca di Apple descrive Ferret-UI, un sistema di intelligenza artificiale generativa appositamente progettato per essere in grado comprendere come funzionano le app. Il modello potrebbe avere degli impieghi rivoluzionari, come utilizzare autonomamente le applicazioni.

Attualmente gli MLLM (Multimodal Large Language Models) non sono molto bravi a comprendere le app mobili poiché dovrebbero essere in grado di interagire con loro per fare l’addestramento, tuttavia i ricercatori di Apple credono Ferret-UI possa farlo attraverso esempi di formazione da una vasta gamma di attività elementari dell’interfaccia utente, come il riconoscimento delle icone, la ricerca di testo e l’elenco dei widget.

Questi campioni sono strutturati in modo tale da aumentare la capacità di ragionamento del modello e i ricercatori Apple sostengono che il risultato è migliore sia rispetto a GPT-4V che ad altri MLLM focalizzati sull’interfaccia utente esistenti.

Ferret-UI di Apple potrebbe imparare a utilizzare le app

Il documento descrive ciò che gli studiosi hanno ottenuto, piuttosto che come potrebbe essere utilizzato il modello, probabilmente anche per questioni di riservatezza, ma potrebbe diventare uno strumento utile per valutare l’efficacia di un’interfaccia utente, migliorare l’accessibilità per le persone con disabilità, ma soprattutto potrebbe potenziare Siri.

L’utente potrebbe chiedere a Siri di prenotare un volo per arrivare in una determinata località entro le ore 10 spendendo meno di una certa cifra. Siri potrebbe quindi interagire con l’app della compagnia aerea per svolgere l’attività al posto dell’utente.