Nový benchmark kódování AI: SWE-Bench-Pro. * Náročnější – špičkové modely dosahují skóre kolem 23 % na SWE-Bench-PRO ve srovnání se 70 % na předchozím SWE-Bench * Snížit problémy s kontaminací dat prostřednictvím soukromých zdrojů a vyčkávací sady * Zvyšuje rozmanitost a realističnost úkolů