Dopo mesi di sperimentazioni separate e funzionalità distribuite in strumenti distinti, OpenAI ha ufficialmente compiuto il grande passo: ChatGPT diventa un vero e proprio agente operativo, capace non solo di conversare o generare contenuti testuali, ma anche di agire in autonomia sul web, eseguendo attività complesse a partire da semplici istruzioni fornite dall’utente.

Un’evoluzione che segna un punto di svolta nell’uso dell’intelligenza artificiale generativa in ambito pratico, soprattutto per chi quotidianamente si trova a svolgere operazioni ripetitive, navigare su siti poco ottimizzati o, più semplicemente, a dover fare ricerche e sintesi in tempi sempre più ristretti.

Offerta

Google Pixel Watch 4 (45 mm)

379€ invece di 449€
-16%

Come funziona e cosa può fare il nuovo agente ChatGPT

Il cuore della novità risiede nella capacità del modello di unificare tre anime in un’unica interfaccia intelligente: l’interazione conversazionale tipica di ChatGPT, l’analisi profonda di fonti online (già vista in Deep Research) e l’interazione diretta con i siti web, clic e compilazioni incluse (funzionalità precedentemente delegata a Operator).

Il risultato? Ora potete chiedere a ChatGPT non solo di trovare tre concorrenti e fare un confronto, ma di analizzarli, sintetizzarne i punti salienti e creare una presentazione pronta da modificare o condividere; il tutto in modo semi automatico, con una fluidità che sulla carta dovrebbe avvicinarsi molto al supporto di un assistente umano.

Non mancano esempi concreti di utilizzo, dalla gestione di calendari alla compilazione di moduli online, fino alla creazione di fogli di calcolo aggiornabili, riassunti di email, analisi finanziarie, prenotazioni di appuntamenti e pianificazioni di viaggio; il tutto mantenendo sempre attivo un principio fondamentale, il controllo rimane all’utente che può intervenire in qualsiasi momento, dare o negare autorizzazioni e persino prendere in mano il browser integrato.

Il nuovo agente è di fatto, come già accennato, la naturale evoluzione di due strumenti nati nei mesi scorsi, ma finora separati, ovvero Operator (pensato per navigare visivamente i siti web, cliccare, compilare form e interagire in tempo reale) e Deep Research (ideato invece per l’analisi ragionata a più passaggi, ottimizzato per fornire report, approfondimenti e sintesi strutturate).

Con il nuovo agente i due strumenti sono stati fusi e potenziati, aggiungendo anche il supporto a browser testuali, API dirette e connettori personali (per esempio per accedere a Gmail, documenti cloud o altri strumenti di produttività); il tutto con un approccio dinamico, il modello sceglie da solo lo strumento più adatto, combinando velocità, profondità ed efficienza a seconda del compito.

Un altro aspetto interessante è che l’agente ChatGPT non lavora in blocchi chiusi, ma in flussi di lavoro iterativi, nei quali l’utente può modificare le istruzioni anche mentre l’attività è in corso, ottenere aggiornamenti parziali, mettere in pausa l’elaborazione o persino rivedere i passaggi effettuati; in caso di ambiguità o dubbi, è lo stesso ChatGPT a chiedere proattivamente chiarimenti.

L’esperienza d’uso è quindi molto più simile a quella di una collaborazione in tempo reale, dove l’IA agisce ma l’utente orienta, corregge e supervisiona in maniera trasparente.

Trattandosi della prima versione pubblica in cui un modello linguistico può agire direttamente sul web, OpenAI ha previsto rigidi protocolli di sicurezza per evitare errori costosi, abusi o rischi legati alla privacy; tra i pilastri principali:

  • conferma esplicita dell’utente prima di azioni sensibili (per esempio invio di moduli, acquisti, accesso a dati personali)
  • supervisione obbligatoria per attività critiche (come email o accesso ad applicazioni sensibili)
  • blocco automatico di richieste ad alto rischio (interazioni legali, transizioni finanziarie, ecc.)

Inoltre il modello è stato addestrato per resistere ai prompt injection e segnalare comportamenti sospetti, gli utenti possono poi cancellare in ogni momento i dati di navigazione o uscire da tutte le sessioni attive. Non meno importante, le azioni svolte in modalità controllo (cioè quando l’utente prende in mano il browser) restano completamente private.

Le nuove funzionalità agentiche possono essere attivate direttamente all’interno dell’interfaccia di ChatGPT Plus, Pro o Team, selezionando la voce modalità agente dal menù strumenti durante una conversazione; una volta avviata, sarà lo steso chatbot a mostrare passo per passo cosa sta facendo, permettendo interventi manuali quando serve. Allo stato attuale le attività agentiche sono quasi illimitate per gli utenti Pro, e limitate a 50 al mese per chi ha un abbonamento Plus o Team, ma con possibilità di sbloccare ulteriori crediti.

L’estensione a ChatGPT Enterprise ed Education è prevista entro fine mese, mentre il vecchio sito Operator sarà dismesso entro 30 giorni.

Come sempre quando si parla di funzioni così nuove non tutto è ancora perfetto, ad esempio la generazione di presentazioni è ancora in Beta e può risultare grezza nella formattazione, soprattutto se non si parte da un documento esistente.

Allo stesso modo, alcune azioni complesse o troppo specifiche potrebbero richiedere input manuali o supervisione costante; tuttavia, OpenAI ha già annunciato di essere al lavoro per migliorare la qualità dei risultati, soprattutto in ambito visuale, grafico e multimediale.

L’introduzione dell’agente ChatGPT segna un nuovo capitolo nell’evoluzione dell’intelligenza artificiale applicata, in cui il modello non si limita più a rispondere, ma prende iniziativa, agisce e collabora; è ancora presto per dire quanto sarà pervasivo questo nuovo paradigma, ma il potenziale è enorme, tanto nella produttività personale quanto in quella professionale.

I nostri contenuti da non perdere: