トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
約2年半前、@_lewtunと@edwardbeechingたちと一緒に、DPOを正しく動かすのに数ヶ月かかった@huggingfaceを覚えています。
現在では、コーディングエージェントはゼロからリポジトリ全体を構築し、高品質な実装を参照しトレードオフを議論し、あなたのデスク上で代表的なトレーニングジョブを実行できます。これは数千サンプルを用いた1Bモデルでした。
AI研究や実験へのアクセス、そしてAIでの仕事の意味を大きく変えています。
私はこのPRを統合し、rlhfbookのコードリポジトリに多くの直接アライメントアルゴリズム(DPOなど)を追加しましたが、今では驚くほど簡単になりました。
この本がますます自信を持ってきました――モデルと実際に機能するものを直感的に掘り下げ、幻覚や誇大宣伝のない場所へと。学生は、AIモデルが午後に作成できるコードや実験に加えて、これを参考にすることができます。
最良の状態であれば、RLHFブックは人々がこの学習資料を議論し、反復し、コミュニティを作るための中心的な場となるでしょう。
トップ
ランキング
お気に入り
