Uusi tekoälykoodauksen vertailuarvo: SWE-Bench-Pro. * Haastavampi - huippumallit saavat noin 23 % pistettä SWE-Bench-PRO:ssa verrattuna 70 %:iin aiemmassa SWE-Benchissä * Vähennä tietojen saastumisongelmia yksityisen hankinnan ja pidätysjoukon avulla * Lisää tehtävien monimuotoisuutta ja realismia