Claude escribiendo código, revisión de código códex, GPT Pro para planificación, hicieron un repositorio DPO funcional (y algoritmos relacionados) desde cero para mi libro RLHF, y las curvas están bien. En el DGX Spark fintuning Olmo 2 1B SFT. Construido referenciando los repositorios originales + TRL