Aangezien OpenAI Figuur 7 van GDPval niet heeft bijgewerkt gezien het succespercentage van GPT-5.2 bij lange taken, heb ik GPT-5.2 Pro gebruikt om dat te doen. De grafiek gaat ervan uit dat het proces is: lange taken aan AI delegeren, de output een uur evalueren, en dan beslissen of je het opnieuw probeert of opgeeft en het zelf doet.
Origineel (GPT-5 had een winpercentage van 39% tegen menselijke experts, GPT-5.2 was rond de 72%)
GDPval blijft een van de belangrijkste AI-papers van vorig jaar. Een visie op hoe AI economisch waardevol werk verricht.
195