claude 代碼編寫,codex 代碼審查,GPT Pro 用於規劃,從零開始為我的 RLHF 書籍製作了一個可運行的 DPO(及相關算法)庫,曲線看起來不錯。 在 dgx spark 微調 olmo 2 1b sft。通過參考原始庫 + TRL 建立。