Protože OpenAI neaktualizovalo Obrázek 7 z GDPval vzhledem k úspěšnosti GPT-5.2 u dlouhých úloh, použil jsem k tomu GPT-5.2 Pro. Graf předpokládá, že proces je: delegovat dlouhé úkoly na AI, vyhodnotit výstup hodinu a pak se rozhodnout zkusit to znovu, nebo to vzdát a udělat to sám.
Původní (GPT-5 měl úspěšnost 39 % proti lidským expertům, GPT-5.2 byl kolem 72 %)
147