Dado que OpenAI no actualizó la Figura 7 de GDPval debido a la tasa de éxito de GPT-5.2 en tareas de formato largo, utilicé GPT-5.2 Pro para hacerlo. El gráfico asume que el proceso es: delegar tareas largas a la IA, evaluar la salida durante una hora, luego decidir si intentar de nuevo o rendirse y hacerlo tú mismo.
Original (GPT-5 tuvo una tasa de éxito del 39% contra expertos humanos, GPT-5.2 estuvo alrededor del 72%)
145