Ricordo circa 2,5 anni fa, con @_lewtun e @edwardbeeching e co. di @huggingface quanto ci volesse mesi per far funzionare correttamente il DPO. Oggi, gli agenti di codifica possono costruire un intero repository da zero, facendo riferimento a implementazioni di alta qualità e discutendo i compromessi, e eseguire un lavoro di addestramento rappresentativo sulla tua scrivania. Questo era un modello da 1B su migliaia di campioni. Cambia davvero l'accessibilità alla ricerca sull'AI e alla sperimentazione, insieme a ciò che significa lavorare nell'AI. Ho appena fuso la PR per questo che aggiunge un sacco di algoritmi di allineamento diretto (DPO ecc.) al repository di codice rlhfbook, ed è notevole quanto sia più facile oggi. Mi sento ancora più sicuro riguardo a ciò che il libro sta diventando -- un luogo denso di intuizioni su ciò che funziona realmente con i modelli, privo di allucinazioni e hype. Gli studenti possono usarlo come riferimento accanto a codice e esperimenti che i modelli AI possono generare in un pomeriggio. Nel suo migliore, il RLHF Book diventerà un luogo centrale per le persone per discutere, iterare e creare comunità attorno a questo materiale di apprendimento.