我记得大约2.5年前,和@_lewtun、@edwardbeeching以及@huggingface的团队一起,花了几个月的时间才把DPO搞定。 今天,编码代理可以从头开始构建整个代码库,参考高质量的实现并讨论权衡,并在你的桌面上运行一个代表性的训练任务。这是一个在数千个样本上训练的10亿模型。 这真的改变了对AI研究和实验的可及性,以及在AI领域工作的意义。 我刚合并了这个PR,它为rlhfbook代码库添加了一堆直接对齐算法(DPO等),今天这变得容易得多,真是令人惊讶。 我对这本书的未来感到更加自信——它将成为一个密集的地方,提供关于什么在模型中实际有效的直觉,摆脱幻觉和炒作。学生们可以将其作为代码和实验的参考,而这些AI模型可以在一个下午内启动。 在最佳状态下,RLHF书籍将成为人们讨论、迭代和围绕这一学习材料建立社区的中心场所。