Como OpenAI no actualizó la Figura 7 de GDPval dado el índice de éxito de GPT-5.2 en tareas de formato largo, utilicé GPT-5.2 Pro para hacerlo. El gráfico asume que el proceso es: delegar tareas largas a la IA, evaluar la salida durante una hora y luego decidir intentarlo de nuevo o rendirse y hacerlo tú mismo.
Original (GPT-5 tenía una tasa de victorias del 39% contra expertos humanos, GPT-5,2 rondaba el 72%)
173