claude 代码编写,codex 代码审查,GPT Pro 用于规划,从头开始为我的 RLHF 书籍制作了一个有效的 DPO(及相关算法)库,曲线看起来不错。 在 dgx spark 微调 olmo 2 1b sft。通过参考原始库 + TRL 构建。