一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我记得大约2.5年前，和@_lewtun、@edwardbeeching以及@huggingface的团队一起，花了几个月的时间才把DPO搞定。今天，编码代理可以从头开始构建整个代码库，参考高质量的实现并讨论权衡，并在你的桌面上运行一个代表性的训练任务。这是一个在数千个样本上训练的10亿模型。这真的改变了对AI研究和实验的可及性，以及在AI领域工作的意义。我刚合并了这个PR，它为rlhfbook代码库添加了一堆直接对齐算法（DPO等），今天这变得容易得多，真是令人惊讶。我对这本书的未来感到更加自信——它将成为一个密集的地方，提供关于什么在模型中实际有效的直觉，摆脱幻觉和炒作。学生们可以将其作为代码和实验的参考，而这些AI模型可以在一个下午内启动。在最佳状态下，RLHF书籍将成为人们讨论、迭代和围绕这一学习材料建立社区的中心场所。