Ny referanse for AI-koding: SWE-Bench-Pro. * Mer utfordrende - toppmodellene scorer rundt 23 % på SWE-Bench-PRO sammenlignet med 70 % på forrige SWE-Bench * Reduser problemer med datakontaminering gjennom privat sourcing og et hold out-sett * Øker mangfoldet og realismen i oppgavene