Saya pikir kemungkinan ada terlalu banyak penekanan pada pengukuran tugas panjang METR sebagai tanda kemajuan AI... ... Tapi itu tidak masalah. Dengan sedikit bantuan dari GPT-5.2 Pro, saya menghitung korelasi antara log (METR) & tolok ukur utama lainnya, dan pada dasarnya semuanya sangat berkorelasi
Sekali lagi terima kasih kepada @EpochAIResearch karena telah membuat begitu banyak skor benchmark tersedia untuk umum.
97