跳转至主要内容
行情
扫链
追踪
信号
跟单
兑换
资产
邀请计划
更多
产品
DeFi
市场
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-3.53%
USELESS
-10.48%
IKUN
-2.62%
gib
-16.79%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-4.13%
ALON
-9.23%
LAUNCHCOIN
-11.03%
GOONC
-5.04%
KLED
-9.08%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.15%
Boopa
-8.97%
PORK
0.00%
主页
Nathan Lambert
研究、@allen_ai、推理、开放模型、RL(VR/HF)等 通过电子邮件联系。 写道,@interconnectsai,@readsail 他写了《RLHF一书》, 🏔️🏃♂️
查看原文
Nathan Lambert
2月3日 23:22
Gemini 完全没有参与与 Claude Code 和 Codex 的对话,才是真正的“红色警报”紧急情况。
69
Nathan Lambert
2月2日 23:39
我记得大约2.5年前,和@_lewtun、@edwardbeeching以及@huggingface的团队一起,花了几个月的时间才把DPO搞定。 今天,编码代理可以从头开始构建整个代码库,参考高质量的实现并讨论权衡,并在你的桌面上运行一个代表性的训练任务。这是一个在数千个样本上训练的10亿模型。 这真的改变了对AI研究和实验的可及性,以及在AI领域工作的意义。 我刚合并了这个PR,它为rlhfbook代码库添加了一堆直接对齐算法(DPO等),今天这变得容易得多,真是令人惊讶。 我对这本书的未来感到更加自信——它将成为一个密集的地方,提供关于什么在模型中实际有效的直觉,摆脱幻觉和炒作。学生们可以将其作为代码和实验的参考,而这些AI模型可以在一个下午内启动。 在最佳状态下,RLHF书籍将成为人们讨论、迭代和围绕这一学习材料建立社区的中心场所。
Nathan Lambert
2月1日 23:39
claude 代码编写,codex 代码审查,GPT Pro 用于规划,从头开始为我的 RLHF 书籍制作了一个有效的 DPO(及相关算法)库,曲线看起来不错。 在 dgx spark 微调 olmo 2 1b sft。通过参考原始库 + TRL 构建。
224
热门
排行
收藏