Claude Code Writing, Codex Code Review, GPT Pro for Planning loivat toimivan DPO:n (ja siihen liittyvät algoritmit) -varaston alusta alkaen RLHF-kirjaani varten, ja käyrät näyttävät oikeilta. DGX Spark -säädin hienosäätö olmo 2 1b sft. Rakennettu viittaamalla alkuperäisiin repositorioihin + TRL