Pamatuji si, že před ~2,5 lety, když jsme byli @_lewtun a @edwardbeeching a spol. ve @huggingface, trvalo měsíce, než DPO fungovalo správně. Dnes mohou programátoři vybudovat celé repozitář od nuly, odkazovat na kvalitní implementace a diskutovat kompromisy, a zároveň vést reprezentativní školení přímo na vašem stole. Šlo o model 1B na tisících vzorků. Opravdu to mění přístupnost výzkumu a experimentování s AI, stejně jako to, co znamená pracovat v AI. Právě jsem sloučil PR, který přidává spoustu algoritmů přímého zarovnání (DPO atd.) do repozitáře rlhfbooku, a je pozoruhodné, jak je to dnes jednodušší. Cítím se ještě jistější ohledně toho, čím se kniha stává – hustým místem pro intuice toho, co skutečně funguje s modely, bez halucinací a přehánění. Studenti to mohou použít jako referenci vedle kódu a experimentů, které AI modely spustí během jednoho odpoledne. V tom nejlepším případě se RLHF Book stane centrálním místem, kde lidé diskutují, iterují a tvoří komunitu kolem tohoto učebního materiálu.