一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我記得大約 2.5 年前，和 @_lewtun、@edwardbeeching 以及 @huggingface 的同事們一起，花了幾個月才讓 DPO 正常運作。今天，編碼代理可以從零開始建立整個庫，參考高質量的實現並討論權衡，並在你的桌面上運行一個代表性的訓練任務。這是一個在數千個樣本上訓練的 1B 模型。這真的改變了 AI 研究和實驗的可及性，以及在 AI 領域工作的意義。我剛合併了這個 PR，為 rlhfbook 代碼庫添加了一堆直接對齊算法（DPO 等），今天這一切變得簡單得多，真是令人驚訝。我對這本書的發展感到更加自信——它將成為一個密集的地方，提供對於模型實際有效的直覺，沒有幻覺和炒作。學生們可以將這本書作為參考，與 AI 模型在一個下午內能夠啟動的代碼和實驗並行使用。在最佳狀態下，RLHF 書將成為人們討論、迭代和圍繞這些學習材料建立社群的中心場所。