Puisqu'OpenAI n'a pas mis à jour la Figure 7 de GDPval compte tenu du taux de réussite de GPT-5.2 sur les tâches longues, j'ai utilisé GPT-5.2 Pro pour le faire. Le graphique suppose que le processus est le suivant : déléguer les tâches longues à l'IA, évaluer la sortie pendant une heure, puis décider de réessayer ou d'abandonner et de le faire soi-même.
Original (GPT-5 avait un taux de victoire de 39 % contre des experts humains, GPT-5.2 était d'environ 72 %)
GDPval reste l'un des articles sur l'IA les plus importants de l'année dernière. Une vision de la manière dont l'IA effectue un travail économiquement précieux.
198