跳转至主要内容
行情
扫链
追踪
信号
跟单
兑换
资产
邀请计划
更多
产品
DeFi
市场
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-2.04%
USELESS
-3.29%
IKUN
+10.13%
gib
+4.82%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-0.78%
ALON
-2.63%
LAUNCHCOIN
-7.41%
GOONC
-3.14%
KLED
-1.01%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.71%
Boopa
-5.9%
PORK
0.00%
主页
Beff (e/acc)
创始人 @ e/acc // 热力之王 @extropic // 卡尔达肖夫的缩放就是你所需要的全部
查看原文
Beff (e/acc)
7 小时前
自回归模型 = 自闭症 扩散模型 = 注意力缺陷多动障碍
2
Beff (e/acc)
9 小时前
安德烈·斯梅耶夫应该创办一家科技公司,这样@tbpn就可以问他关于他的卧推的事了。
2
Beff (e/acc)
10 小时前
不要害怕训练过1000个模型的人。 要害怕那个训练同一个模型1000次的人。
Andrej Karpathy
2月1日 04:55
nanochat 现在可以以 <<$100 (~$73,单个 8XH100 节点上 3 小时) 的价格训练 GPT-2 级别的 LLM。 GPT-2 是我最喜欢的 LLM,因为这是 LLM 堆栈首次以可识别的现代形式结合在一起。因此,我对以更便宜的价格训练一个具有 GPT-2 能力的模型产生了一种奇怪而持久的痴迷,受益于大约 7 年的进展。特别是,我怀疑今天应该可以以 <<$100 的价格训练一个。 最初在 2019 年,GPT-2 是由 OpenAI 在 32 个 TPU v3 芯片上训练的,持续了 168 小时(7 天),当时的费用为每个 TPUv3 $8/小时,总成本约为 $43K。它达到了 0.256525 的 CORE 分数,这是在 DCLM 论文中引入的一个集成指标,经过 22 次评估,如 ARC/MMLU 等。 截至最近合并到 nanochat 的一些改进(其中许多源自 modded-nanogpt 仓库),我现在可以在单个 8XH100 节点上以 3.04 小时 (~$73) 达到更高的 CORE 分数。这是 7 年间成本降低了 600 倍,即训练 GPT-2 的成本每年大约下降 2.5 倍。我认为这可能是一个低估,因为我仍然相对定期地发现更多的改进,并且我还有一堆想法待尝试。 有关优化细节和如何重现的更多信息,请查看更长的帖子: 受到 modded-nanogpt 的启发,我还创建了一个“时间到 GPT-2”的排行榜,其中第一个“Jan29”模型以 3.04 小时成为第 1 条目。进一步迭代这个将会很有趣,我欢迎任何帮助!我希望 nanochat 能够发展成为一个非常不错/干净且经过调优的实验 LLM 平台,用于原型设计、娱乐,当然还有学习。 那些开箱即用并立即产生收益的最大改进包括 1) Flash Attention 3 内核(更快,并允许 window_size kwarg 获取交替注意模式),Muon 优化器(我尝试了大约 1 天删除它,只使用 AdamW,但我做不到),由可学习标量控制的残差路径和跳过连接,以及值嵌入。还有许多其他较小的改进也在不断累积。 图片:与当前 nanochat 模型迷你系列的缩放法则推导相关的半相关眼花缭乱的内容,既美观又令人满意!
2
热门
排行
收藏