Ponieważ OpenAI nie zaktualizowało Rysunku 7 z GDPval, biorąc pod uwagę wskaźnik sukcesu GPT-5.2 w zadaniach długoterminowych, użyłem GPT-5.2 Pro, aby to zrobić. Wykres zakłada, że proces wygląda następująco: deleguj długie zadania do AI, oceniaj wyniki przez godzinę, a następnie zdecyduj, czy spróbować ponownie, czy się poddać i zrobić to samodzielnie.
Oryginalny (GPT-5 miał wskaźnik wygranych na poziomie 39% przeciwko ludzkim ekspertom, GPT-5.2 wynosił około 72%)
GDPval pozostaje jednym z najważniejszych dokumentów AI ubiegłego roku. Wizja tego, jak AI wykonuje ekonomicznie wartościową pracę.
191