scrittura di codice claude, revisione del codice codex, GPT Pro per la pianificazione ha creato un repository DPO funzionante (e algoritmi correlati) da zero per il mio libro RLHF, e le curve sembrano corrette. Sulla finetuning dgx spark olmo 2 1b sft. Costruito facendo riferimento ai repository originali + TRL