Claude escrevendo código, revisão de código códex, GPT Pro para planejamento, criaram um repositório funcional de DPO (e algoritmos relacionados) do zero para meu livro RLHF, e as curvas estão corretas. No DGX Spark está ajustando finamente um olmo 2 1b sft. Construído referenciando os repositórios originais + TRL