Como a OpenAI não atualizou a Figura 7 do GDPval, dado o índice de sucesso do GPT-5.2 em tarefas de formato longo, usei o GPT-5.2 Pro para isso. O gráfico assume que o processo é: delegar tarefas longas para a IA, avaliar a saída por uma hora, e então decidir tentar de novo ou desistir e fazer você mesmo.
Original (GPT-5 tinha uma taxa de vitória de 39% contra especialistas humanos, GPT-5,2 era cerca de 72%)
173