热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我记得大约2.5年前,和@_lewtun、@edwardbeeching以及@huggingface的团队一起,花了几个月的时间才把DPO搞定。
今天,编码代理可以从头开始构建整个代码库,参考高质量的实现并讨论权衡,并在你的桌面上运行一个代表性的训练任务。这是一个在数千个样本上训练的10亿模型。
这真的改变了对AI研究和实验的可及性,以及在AI领域工作的意义。
我刚合并了这个PR,它为rlhfbook代码库添加了一堆直接对齐算法(DPO等),今天这变得容易得多,真是令人惊讶。
我对这本书的未来感到更加自信——它将成为一个密集的地方,提供关于什么在模型中实际有效的直觉,摆脱幻觉和炒作。学生们可以将其作为代码和实验的参考,而这些AI模型可以在一个下午内启动。
在最佳状态下,RLHF书籍将成为人们讨论、迭代和围绕这一学习材料建立社区的中心场所。
热门
排行
收藏
