Nytt riktmärke för AI-kodning: SWE-Bench-Pro. * Mer utmanande - toppmodellerna får cirka 23% på SWE-Bench-PRO jämfört med 70% på den tidigare SWE-Bench * Minska problem med datakontaminering genom privat sourcing och en holdout-uppsättning * Ökar mångfalden och realismen i uppgifterna