Bahkan setelah kemajuan tajam selama 3 bulan terakhir, tetap saja kinerja AI terkait dengan keakraban tugas. Dalam domain yang dapat diambil sampelnya secara padat (melalui pembuatan terprogram + verifikasi), performa secara efektif tidak terbatas, dan akan terus meningkat dari tingkat saat ini. Dalam domain baru yang tidak dikenal, kinerja tetap rendah dan kemajuan lebih lanjut masih membutuhkan ide-ide baru, bukan hanya lebih banyak data dan komputasi.
Taelin
Taelin14 jam lalu
Oke, saya pikir eksperimen saya membiarkan AI bekerja pada hal-hal 24/7 berakhir di sini. Itu tidak berhasil. Kode meledak dalam kompleksitas, hasilnya tidak terlalu bagus, AI tidak dapat melewati dinding keras (masih benar-benar tidak dapat *memahami* SupGen), dan itu sangat mahal (dihabiskan ~1k selama 2 hari terakhir). Hasil terbaik ada pada kompiler JS, sebagian besar karena sudah akrab (dibandingkan dengan inets), tetapi tidak layak kehilangan kendali atas basis kode. Saya pikir impian AI bekerja di latar belakang dan membuat kemajuan nyata pada hal-hal yang penting (yaitu, hal-hal yang benar-benar baru) belum ada di sini. Ini masih merupakan mesin yang terjebak pada data pelatihannya sendiri, tidak mampu berpikir di luar kotak. Ini bagus untuk membangun barang-barang yang sudah dibangun. Tapi bukan hal baru Juga pengkodean biasanya memiliki keuntungan yang kurang dihargai bahwa Anda melakukan dua hal pada saat yang sama: membangun basis kode *dan* mempelajarinya. AI hanya melakukan setengah dari itu. Separuh lainnya jelas tidak mungkin 🤔
Untuk tolok ukur yang menargetkan tugas-tugas baru, bentuk umum peretasan tolok ukur yang mengarbitrase kesenjangan ini adalah menghasilkan sampel tugas potensial yang padat dengan membuat parameterisasi ruang secara manual dan kemudian memaksanya. Sangat mahal tapi berhasil. Hanya sedikit yang dapat Anda lakukan untuk memulihkan validitas tolok ukur di sini selain meningkatkan dimensi ruang tugas.
38