كتابة كود كلود، مراجعة كودكس، GPT Pro للتخطيط أنشأت مستودع DPO (والخوارزميات ذات الصلة) يعمل من الصفر لكتابي RLHF، والمنحنيات تبدو صحيحة. في جهاز DGX Spark Fine Tuinting Olmo 2 1b SFT. تم بناؤه بالرجوع إلى المستودعات الأصلية + TRL