Poiché OpenAI non ha aggiornato la Figura 7 da GDPval data la percentuale di successo di GPT-5.2 nei compiti di lunga durata, ho utilizzato GPT-5.2 Pro per farlo. Il grafico presuppone che il processo sia: delegare compiti lunghi all'AI, valutare l'output per un'ora, quindi decidere se riprovare o arrendersi e farlo da soli.
Originale (GPT-5 aveva un tasso di vittoria del 39% contro esperti umani, GPT-5.2 era intorno al 72%)
177