熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Andrej Karpathy
建築@EurekaLabsAI。曾任 AI 總監 @ 特斯拉,創始團隊 @ OpenAI,CS231n/PhD @ 史丹佛大學。我喜歡訓練大型深層神經網路。
在預訓練時代,重要的是互聯網文本。你主要希望擁有一個大型、多樣化、高質量的互聯網文檔集合來學習。
在監督微調時代,重要的是對話。雇用合同工來為問題創建答案,有點像你在 Stack Overflow / Quora 等地方看到的,但更針對 LLM 的用例。
我認為上述兩者都不會消失,但在這個強化學習的時代,現在重要的是環境。與上述不同,它們給 LLM 提供了實際互動的機會——採取行動、查看結果等。這意味著你可以希望比統計專家模仿做得更好。它們可以用於模型訓練和評估。但就像以前一樣,現在的核心問題是需要一個大型、多樣化、高質量的環境集合,作為 LLM 練習的練習場。
在某種程度上,我想起了 OpenAI 的第一個項目(gym),這正是一個希望建立一個大型環境集合的框架,但那是在 LLM 之前。因此,這些環境是當時簡單的學術控制任務,比如 cartpole、ATARI 等。@PrimeIntellect 環境中心(以及 GitHub 上的 `verifiers` 倉庫)構建了現代化版本,專門針對 LLM,這是一個偉大的努力/想法。今年早些時候,我建議有人構建類似的東西:
環境具有這樣的特性,一旦框架的骨架到位,原則上社區/行業可以在許多不同領域並行化,這令人興奮。
最後的想法——就個人和長期而言,我對環境和代理互動持樂觀態度,但對強化學習持悲觀態度。我認為獎勵函數非常可疑,我認為人類並不使用 RL 來學習(也許他們在某些運動任務等方面使用,但在智力問題解決任務中並不使用)。人類使用不同的學習範式,這些範式顯著更強大且樣本效率更高,而這些範式尚未得到適當的發明和擴展,儘管早期的草圖和想法已經存在(例如,“系統提示學習”的想法,將更新移動到令牌/上下文而不是權重,並可選擇將其提煉為權重,作為一個類似於睡眠的單獨過程)。

Prime Intellect8月28日 03:16
介紹環境中心
RL環境是下一波AI進步的關鍵瓶頸,但大型實驗室正在封鎖它們
我們建立了一個社區平台,用於眾包開放環境,以便任何人都可以為開源AGI做出貢獻
718.94K
繼續優化 LLM 輔助編碼體驗的旅程。特別是,我發現與其專注於一個完美的東西,我的使用越來越多樣化,跨越幾個工作流程,我將其 "拼接" 優缺點:
就我個人而言,我的 LLM 輔助的主力(約 75%?)仍然是 (Cursor) 的 tab 補全。這是因為我發現自己在代碼的正確部分編寫具體的代碼/註釋是一種高帶寬的方式來與 LLM 進行 "任務規範" 的溝通,也就是說,主要是關於任務規範的部分——用文本溝通我想要的內容需要太多的位和太多的延遲,而在代碼中以正確的地方展示它更快。有時 tab 補全模型很煩人,所以我經常切換它的開關。
下一層是突出顯示一段具體的代碼並請求某種修改。
再上一層是 Claude Code / Codex / 等等,運行在 Cursor 的旁邊,我會去使用它們來處理一些功能較大的代碼塊,這些代碼塊在提示中也相對容易指定。這些非常有幫助,但總體上仍然是混合的,有時略顯沮喪。我不以 YOLO 模式運行,因為它們可能會偏離軌道,做出你不想要/需要的愚蠢事情,我經常按 ESC。我也還沒有學會如何有效地使用多個實例並行——一個已經感覺夠難的了。我還沒有找到保持 CLAUDE[.]md 良好或最新的好方法。我經常需要進行 "清理" 的過程,以符合編碼風格或代碼品味的問題。例如,它們過於防禦性,常常過度使用 try/catch 語句,常常過於複雜化抽象,代碼過於臃腫(例如,當列表推導或一行的 if-then-else 可以工作時,使用嵌套的 if-else 結構),或者它們重複代碼塊而不是創建一個好的輔助函數,諸如此類……它們基本上沒有品味。在我逐漸進入一個我不太熟悉的 vibe-coding 領域時,它們是不可或缺的(例如,最近寫一些 rust,或者 sql 命令,或者我之前做得較少的任何其他事情)。我還嘗試讓 CC 在編寫代碼的同時教我東西,但這根本沒有效果——它真的更想寫代碼,而不是在過程中解釋任何東西。我嘗試讓 CC 進行超參數調優,這非常有趣。它們在所有種類的低風險一次性自定義可視化或工具或調試代碼中也非常有幫助,我絕對不會自己編寫這些代碼,因為這會花費太長時間。例如,CC 可以快速生成 1,000 行一次性的廣泛可視化/代碼,僅僅是為了識別一個特定的 bug,而在我們找到它後,這些代碼會被全部刪除。這是代碼後稀缺時代——你可以創建然後刪除成千上萬行超級自定義、超級短暫的代碼,現在沒關係,這不再是這種珍貴而昂貴的東西。
最後的防線是 GPT5 Pro,我會去處理最困難的事情。例如,我已經發生過幾次,我 / Cursor / CC 都在一個 bug 上卡了 10 分鐘,但當我將整個內容複製粘貼到 5 Pro 時,它會運行 10 分鐘,但最終確實找到了一个非常微妙的 bug。它非常強大。它可以挖掘各種深奧的文檔和論文等。我還用它處理其他更重要的任務,例如關於如何清理抽象的建議(結果混合,有時有好的想法,但並非全部),或者關於人們如何做這個或那個的整個文獻綜述,它會返回相關的資源/指針。
無論如何,編碼感覺在多種 "類型" 的編碼和許多工具的優缺點之間完全被打開了可能性。很難避免對未能處於集體可能性的前沿感到焦慮,因此隨機的星期天洗澡思考和對他人發現的好奇心。
614.27K
熱門
排行
收藏