Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Creo que probablemente hay demasiado énfasis en la medición de tareas largas del METR como señal del progreso de la IA... ... Pero no importa. Con un poco de ayuda de GPT-5.2 Pro, calculé las correlaciones entre log(METR) y otros benchmarks clave, y básicamente todos se correlacionan de forma muy alta

Gracias de nuevo a @EpochAIResearch por hacer públicos tantos resultados de benchmark.

73

Populares

Ranking

Favoritas