DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Andrej Karpathy

Membangun @EurekaLabsAI. Sebelumnya Direktur AI @ Tesla, tim pendiri @ OpenAI, CS231n/PhD @ Stanford. Saya suka melatih jaring 🧠🤖💥 saraf dalam yang besar

Di era prapelatihan, yang penting adalah teks internet. Anda terutama menginginkan koleksi dokumen internet yang besar, beragam, dan berkualitas tinggi untuk dipelajari. Di era penyempurnaan yang diawasi, itu adalah percakapan. Pekerja kontrak dipekerjakan untuk membuat jawaban atas pertanyaan, sedikit seperti yang Anda lihat di Stack Overflow / Quora, atau lain-lain, tetapi diarahkan untuk kasus penggunaan LLM. Tak satu pun dari dua hal di atas akan hilang (imo), tetapi di era pembelajaran penguatan ini, sekarang menjadi lingkungan. Tidak seperti di atas, mereka memberi LLM kesempatan untuk benar-benar berinteraksi - mengambil tindakan, melihat hasil, dll. Ini berarti Anda dapat berharap untuk melakukan jauh lebih baik daripada tiruan ahli statistik. Dan mereka dapat digunakan baik untuk pelatihan dan evaluasi model. Tetapi seperti sebelumnya, masalah inti sekarang adalah membutuhkan serangkaian lingkungan yang besar, beragam, dan berkualitas tinggi, sebagai latihan bagi LLM untuk berlatih. Dalam beberapa hal, saya teringat pada proyek pertama OpenAI (gym), yang merupakan kerangka kerja yang berharap untuk membangun koleksi besar lingkungan dalam skema yang sama, tetapi ini jauh sebelum LLM. Jadi lingkungannya adalah tugas kontrol akademik sederhana saat itu, seperti tiang gerobak, ATARI, dll. Hub lingkungan @PrimeIntellect (dan repositori 'verifier' di GitHub) membangun versi modern yang secara khusus menargetkan LLM, dan ini adalah upaya/ide yang hebat. Saya mengajukan agar seseorang membangun sesuatu seperti itu awal tahun ini: Lingkungan memiliki properti bahwa setelah kerangka kerja diadakan, pada prinsipnya komunitas / industri dapat menyejajarkan di banyak domain yang berbeda, yang menarik. Pemikiran akhir - secara pribadi dan jangka panjang, saya optimis pada lingkungan dan interaksi agen tetapi saya bearish pada pembelajaran penguatan secara khusus. Saya pikir fungsi penghargaan itu super sus, dan saya pikir manusia tidak menggunakan RL untuk belajar (mungkin mereka melakukannya untuk beberapa tugas motorik dll, tetapi bukan tugas pemecahan masalah intelektual). Manusia menggunakan paradigma pembelajaran yang berbeda yang secara signifikan lebih kuat dan efisien sampel dan yang belum ditemukan dan diskalakan dengan benar, meskipun ada sketsa dan ide awal (sebagai salah satu contoh, gagasan "pembelajaran cepat sistem", memindahkan pembaruan ke token/konteks bukan bobot dan secara opsional menyuling ke bobot sebagai proses terpisah seperti tidur).

Melanjutkan perjalanan pengalaman pengkodean berbantuan LLM yang optimal. Secara khusus, saya menemukan bahwa alih-alih mempersempit satu hal yang sempurna, penggunaan saya semakin terdiversifikasi di beberapa alur kerja yang saya "menjahit" pro / kontra: Secara pribadi roti & mentega (~ 75%) dari bantuan LLM saya terus menjadi tab (Cursor) lengkap. Ini karena saya menemukan bahwa menulis potongan kode / komentar konkret sendiri dan di bagian kanan kode adalah cara bandwidth tinggi untuk mengkomunikasikan "spesifikasi tugas" ke LLM, yaitu ini terutama tentang bit spesifikasi tugas - dibutuhkan terlalu banyak bit dan terlalu banyak latensi untuk mengkomunikasikan apa yang saya inginkan dalam teks, Dan lebih cepat untuk mendemonstrasikannya dalam kode dan di tempat yang tepat. Terkadang model tab lengkap mengganggu, jadi saya sering menghidupkan/menonaktifkannya. Lapisan berikutnya adalah menyoroti potongan kode konkret dan meminta semacam modifikasi. Lapisan berikutnya adalah Claude Code / Codex / dll, berjalan di sisi Cursor, yang saya kunjungi untuk potongan fungsionalitas yang lebih besar yang juga cukup mudah untuk ditentukan dalam prompt. Ini sangat membantu, tetapi masih bercampur secara keseluruhan dan terkadang sedikit membuat frustrasi. Saya tidak berlari dalam mode YOLO karena mereka dapat keluar jalur dan melakukan hal-hal bodoh yang tidak Anda inginkan/butuhkan dan saya ESC cukup sering. Saya juga belum belajar untuk menjadi produktif menggunakan lebih dari satu contoh secara paralel - seseorang sudah merasa cukup sulit. Saya belum menemukan cara yang baik untuk mempertahankan CLAUDE[.]MD baik atau up to date. Saya sering harus melakukan "pembersihan" untuk gaya pengkodean, atau masalah selera kode. Misalnya mereka terlalu defensif dan sering menggunakan pernyataan try/catch secara berlebihan, mereka sering terlalu memperumit abstraksi, mereka membengkak kode (misalnya konstruksi if-the-else yang bersarang ketika pemahaman daftar atau one-liner if-then-else akan berfungsi), atau mereka menduplikasi potongan kode alih-alih membuat fungsi pembantu yang bagus, hal-hal seperti itu... mereka pada dasarnya tidak memiliki indera rasa. Mereka sangat diperlukan dalam kasus di mana saya masuk ke wilayah pengkodean getaran di mana saya kurang akrab (misalnya menulis beberapa karat baru-baru ini, atau perintah sql, atau apa pun yang telah saya lakukan lebih sedikit sebelumnya). Saya juga mencoba CC untuk mengajari saya hal-hal di samping kode yang ditulisnya tetapi itu tidak berhasil sama sekali - ia benar-benar ingin menulis kode lebih banyak daripada ingin menjelaskan apa pun di sepanjang jalan. Saya mencoba membuat CC melakukan penyetelan hiperparameter, yang sangat lucu. Mereka juga sangat membantu dalam semua jenis visualisasi atau utilitas khusus atau kode debugging satu kali dengan taruhan rendah yang tidak akan pernah saya tulis karena akan memakan waktu terlalu lama. Misalnya CC dapat membuat 1.000 baris visualisasi/kode ekstensif satu kali hanya untuk mengidentifikasi bug tertentu, yang semuanya akan dihapus tepat setelah kita menemukannya. Ini adalah era pasca-kelangkaan kode - Anda cukup membuat dan kemudian menghapus ribuan baris kode super kustom, super sementara sekarang, tidak apa-apa, itu bukan hal yang mahal lagi ini. Lapisan pertahanan terakhir adalah GPT5 Pro, yang saya tuju untuk hal-hal tersulit. Misalnya itu telah terjadi pada saya beberapa kali sekarang bahwa saya / Kursor / CC semua terjebak pada bug selama 10 menit, tetapi ketika saya menyalin tempel semuanya ke 5 Pro, itu mati selama 10 menit tetapi kemudian benar-benar menemukan bug yang sangat halus. Ini sangat kuat. Itu dapat menggali semua jenis dokumen dan makalah esoteris dan semacamnya. Saya juga telah menggunakannya untuk tugas-tugas lain yang lebih besar, misalnya saran tentang cara membersihkan abstraksi (hasil campuran, terkadang ide bagus tetapi tidak semua), atau seluruh tinjauan literatur seputar bagaimana orang melakukan ini atau itu dan itu kembali dengan sumber daya / petunjuk yang relevan yang baik. Bagaimanapun, pengkodean terasa benar-benar terbuka dengan kemungkinan di sejumlah "jenis" pengkodean dan kemudian sejumlah alat dengan pro / kontranya. Sulit untuk menghindari perasaan cemas tentang tidak berada di perbatasan apa yang mungkin secara kolektif, oleh karena itu hujan pikiran acak pada hari Minggu dan rasa ingin tahu yang baik tentang apa yang ditemukan orang lain.

Teratas

Peringkat

Favorit