Penulisan kode claude, tinjauan kode codex, GPT Pro untuk perencanaan membuat repositori DPO (dan algoritme terkait) yang berfungsi dari awal untuk buku RLHF saya, dan kurvanya terlihat benar. Pada dgx spark finetuning olmo 2 1b sft. Dibangun dengan mereferensikan repositori asli + TRL