Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pamiętam, że około 2,5 roku temu, z @_lewtun i @edwardbeeching oraz ekipą z @huggingface, zajęło to miesiące, aby DPO działało poprawnie.
Dziś agenci kodujący mogą zbudować cały repozytorium od podstaw, odwołując się do wysokiej jakości implementacji i omawiając kompromisy, a także uruchomić reprezentatywne zadanie treningowe na swoim biurku. To był model 1B na tysiącach próbek.
To naprawdę zmienia dostępność badań nad AI i eksperymentowania, a także to, co oznacza praca w AI.
Właśnie połączyłem PR, który dodaje szereg algorytmów bezpośredniego dostosowania (DPO itd.) do repozytorium kodu rlhfbook, i to niesamowite, jak dużo łatwiej jest to dzisiaj.
Czuję się jeszcze bardziej pewny tego, czym staje się ta książka - gęstym miejscem dla intuicji dotyczących tego, co naprawdę działa z modelami, wolnym od halucynacji i hype'ów. Studenci mogą używać tego jako odniesienia obok kodu i eksperymentów, które modele AI mogą uruchomić w ciągu popołudnia.
W najlepszym wydaniu, Książka RLHF stanie się centralnym miejscem dla ludzi do dyskusji, iteracji i budowania społeczności wokół tego materiału edukacyjnego.
Najlepsze
Ranking
Ulubione
