Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Я помню, примерно 2.5 года назад, с @_lewtun и @edwardbeeching и командой в @huggingface, как нам потребовались месяцы, чтобы правильно настроить DPO.
Сегодня кодирующие агенты могут создать целый репозиторий с нуля, ссылаясь на высококачественные реализации и обсуждая компромиссы, и запустить представительную тренировочную задачу у себя на столе. Это была модель на 1 миллиард на тысячах образцов.
Это действительно меняет доступность исследований в области ИИ и экспериментов, а также то, что значит работать в ИИ.
Я только что объединил PR для этого, который добавляет множество прямых алгоритмов выравнивания (DPO и т.д.) в кодовый репозиторий rlhfbook, и это удивительно, насколько легче это стало сегодня.
Я чувствую себя еще более уверенно в том, чем становится книга — плотным местом для интуиций о том, что действительно работает с моделями, свободным от галлюцинаций и хайпов. Студенты могут использовать это как справочник наряду с кодом и экспериментами, которые ИИ модели могут запустить за одно послеобеденное время.
В лучшем случае, книга RLHF станет центральным местом для людей, чтобы обсуждать, итеративно работать и создавать сообщество вокруг этого учебного материала.
Топ
Рейтинг
Избранное
