Como a OpenAI não atualizou a Figura 7 do GDPval dado a taxa de sucesso do GPT-5.2 em tarefas longas, usei o GPT-5.2 Pro para fazê-lo. O gráfico assume que o processo é: delegar tarefas longas à IA, avaliar a saída por uma hora, e então decidir tentar novamente ou desistir e fazer você mesmo.
Original (o GPT-5 teve uma taxa de vitória de 39% contra especialistas humanos, o GPT-5.2 estava em torno de 72%)
151