Siden OpenAI ikke oppdaterte figur 7 fra GDPval gitt suksessraten til GPT-5.2 på langformede oppgaver, brukte jeg GPT-5.2 Pro til å gjøre det. Diagrammet antar at prosessen er: delegere lange oppgaver til AI, evaluere resultatet i en time, og så bestemme deg for å prøve igjen eller gi opp og gjøre det selv.
Original (GPT-5 hadde en seiersrate på 39 % mot menneskelige eksperter, GPT-5,2 var rundt 72 %)
GDPval er fortsatt en av de viktigste AI-artiklene i fjor. En visjon om hvordan KI utfører økonomisk verdifullt arbeid.
190