Lembro de ~2,5 anos atrás, com @_lewtun e @edwardbeeching e companhia no @huggingface como levava meses para fazer o DPO funcionar direito. Hoje, agentes de codificação podem construir um repositório inteiro do zero, referenciando implementações de alta qualidade e discutindo trade-offs, além de executar um trabalho de treinamento representativo na sua mesa. Este era um modelo 1B em milhares de amostras. Isso realmente muda a acessibilidade à pesquisa e ajustes em IA, junto com o que significa trabalhar em IA. Acabei de mesclar o PR para isso, que adiciona vários algoritmos de alinhamento direto (DPO etc) ao repositório de código do rlhfbook, e é impressionante como isso está muito mais fácil hoje em dia. Estou me sentindo ainda mais confiante sobre o que o livro está se tornando — um lugar denso para intuições sobre o que realmente funciona com modelos, livre de alucinações e exageros. Os alunos podem usar isso como referência além de códigos e experimentos que os modelos de IA podem criar em uma tarde. No seu melhor, o Livro RLHF se tornará um espaço central para as pessoas discutirem, iterarem e formarem comunidade em torno desse material de aprendizado.