熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我記得大約 2.5 年前,和 @_lewtun、@edwardbeeching 以及 @huggingface 的同事們一起,花了幾個月才讓 DPO 正常運作。
今天,編碼代理可以從零開始建立整個庫,參考高質量的實現並討論權衡,並在你的桌面上運行一個代表性的訓練任務。這是一個在數千個樣本上訓練的 1B 模型。
這真的改變了 AI 研究和實驗的可及性,以及在 AI 領域工作的意義。
我剛合併了這個 PR,為 rlhfbook 代碼庫添加了一堆直接對齊算法(DPO 等),今天這一切變得簡單得多,真是令人驚訝。
我對這本書的發展感到更加自信——它將成為一個密集的地方,提供對於模型實際有效的直覺,沒有幻覺和炒作。學生們可以將這本書作為參考,與 AI 模型在一個下午內能夠啟動的代碼和實驗並行使用。
在最佳狀態下,RLHF 書將成為人們討論、迭代和圍繞這些學習材料建立社群的中心場所。
熱門
排行
收藏
