Claude kodeskriving, kodegjennomgang, GPT Pro for planlegging har laget et fungerende DPO- (og relaterte algoritmer) arkiv fra bunnen av for RLHF-boken min, og kurvene ser riktige ut. På dgx spark finetuning olmo 2 1b sft. Bygget ved å referere til de opprinnelige repositoriene + TRL