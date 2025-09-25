Un nuovo benchmark presentato da OpenAI potrebbe presto diventare un punto di riferimento per capire a che livelli siano arrivati i modelli di intelligenza artificiale rispetto agli esseri umani. Il test è stato progettato per misurare quanto i modelli di IA riescano ad avvicinarsi, o addirittura superare, la qualità del lavoro svolto da professionisti in settori chiave dell’economia. I risultati sono incredibili e dimostrano la velocità con la quale questi modelli si stanno evolvendo.

Questo benchmark prende il nome di GDPval e si trova ancora nelle sue fasi iniziali, ma rappresenta un tassello importante nella missione di OpenAI, ossia quella di creare un’intelligenza artificiale generale che sia davvero in grado di svolgere compiti economicamente rilevanti al pari, se non in maniera superiore, degli esseri umani.

Attraverso questo benchmark sono stati messi sotto la lente d’ingrandimento GPT-5, l’ultimo modello rilasciato su ChatGPT, e Claude Opus 4.1 di Anthropic: entrambi hanno dimostrato di essere sempre più vicini al livello del lavoro svolto dagli esperti in determinati settori. In particolare, GTP-5-high, una versione potenziata con maggiore capacità di calcolo, è stato giudicato migliore o equivalente ai professionisti nel 40,6% dei casi. Ancora più sorprendente è risultato invece Claude, che ha toccato il 49% ma, secondo OpenAI, questa percentuale è dovuta all’inclinazione del modello di generare grafici più accattivanti rispetto a ChatGPT.

L’IA è ancora lontana dal sostituire l’uomo

Il benchmark messo a punto da OpenAI misura solo una porzione limitata di quelle che possono essere le mansioni reali di un essere umano. Nella sua versione iniziale, GDPval si concentra soprattutto sulla produzione di report scritti che vengono poi confrontati con quelli redatti da professionisti umani in diversi ambiti chiave dell’economia americana, come la sanità, la finanza e la pubblica amministrazione.

È un primo passo, ma OpenAI riconosce che serviranno prove molto più articolate per valutare davvero la capacità dei modelli di inserirsi nei flussi di lavoro quotidiani, dove la complessità e l’interazione hanno un peso molto più determinante. Si tratta comunque di risultati incredibili se andiamo a guardare al passato recente: GPT-4o, rilasciato appena quindici mesi fa, era riuscito a ottenere il 13,7% di vittorie e pareggi contro i professionisti, mentre GPT-5 è riuscito quasi a triplicare quel risultato.

Aaron Chatterji, capo economista di OpenAI, ha ribadito però che lo scopo di questi benchmark non è quello di arrivare al punto in cui l’intelligenza artificiale possa sostituire in tutto e per tutto gli esseri umani. Si tratta semplicemente di arrivare ad un punto in cui i professionisti potranno affidare alle IA i compiti più ripetitivi per avere così più tempo per attività più impegnative. Lo scopo, quindi, è quello di accompagnare gli esseri umani nel lavoro di tutti i giorni.

Ci sono già all’attivo diversi benchmark per valutare i modelli di intelligenza artificiale, come per esempio AIME 2025 per i problemi matematici complessi o GPQA Diamond per le domande scientifiche a livello di dottorato. Molti di questi vengono però ormai superati senza molte difficoltà dai vari modelli, ed è per questo che GDPval potrebbe diventare il nuovo punto di riferimento per la ricerca, poiché va a toccare più da vicino compiti concreti e collegati al lavoro reale.