跳转至主要内容
行情
扫链
追踪
信号
跟单
兑换
资产
邀请计划
更多
产品
DeFi
市场
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
+11.92%
USELESS
+2.78%
IKUN
+12.61%
gib
+6.65%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
+3.21%
ALON
+10.46%
LAUNCHCOIN
-6.95%
GOONC
+5.97%
KLED
+11.12%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-2.15%
Boopa
+3.94%
PORK
0.00%
主页
Andrej Karpathy
建筑@EurekaLabsAI。曾任人工智能总监@特斯拉,创始团队@OpenAI,CS231n/博士@斯坦福大学。我喜欢训练大型深度神经网络。
查看原文
Andrej Karpathy
2月1日 04:55
nanochat 现在可以以 <<$100 (~$73,单个 8XH100 节点上 3 小时) 的价格训练 GPT-2 级别的 LLM。 GPT-2 是我最喜欢的 LLM,因为这是 LLM 堆栈首次以可识别的现代形式结合在一起。因此,我对以更便宜的价格训练一个具有 GPT-2 能力的模型产生了一种奇怪而持久的痴迷,受益于大约 7 年的进展。特别是,我怀疑今天应该可以以 <<$100 的价格训练一个。 最初在 2019 年,GPT-2 是由 OpenAI 在 32 个 TPU v3 芯片上训练的,持续了 168 小时(7 天),当时的费用为每个 TPUv3 $8/小时,总成本约为 $43K。它达到了 0.256525 的 CORE 分数,这是在 DCLM 论文中引入的一个集成指标,经过 22 次评估,如 ARC/MMLU 等。 截至最近合并到 nanochat 的一些改进(其中许多源自 modded-nanogpt 仓库),我现在可以在单个 8XH100 节点上以 3.04 小时 (~$73) 达到更高的 CORE 分数。这是 7 年间成本降低了 600 倍,即训练 GPT-2 的成本每年大约下降 2.5 倍。我认为这可能是一个低估,因为我仍然相对定期地发现更多的改进,并且我还有一堆想法待尝试。 有关优化细节和如何重现的更多信息,请查看更长的帖子: 受到 modded-nanogpt 的启发,我还创建了一个“时间到 GPT-2”的排行榜,其中第一个“Jan29”模型以 3.04 小时成为第 1 条目。进一步迭代这个将会很有趣,我欢迎任何帮助!我希望 nanochat 能够发展成为一个非常不错/干净且经过调优的实验 LLM 平台,用于原型设计、娱乐,当然还有学习。 那些开箱即用并立即产生收益的最大改进包括 1) Flash Attention 3 内核(更快,并允许 window_size kwarg 获取交替注意模式),Muon 优化器(我尝试了大约 1 天删除它,只使用 AdamW,但我做不到),由可学习标量控制的残差路径和跳过连接,以及值嵌入。还有许多其他较小的改进也在不断累积。 图片:与当前 nanochat 模型迷你系列的缩放法则推导相关的半相关眼花缭乱的内容,既美观又令人满意!
446
Andrej Karpathy
2026年1月31日
我被指责过度炒作了[今天大家已经听得太多的那个网站]。人们的反应差异很大,从“这有什么意思”到“这已经结束了”。 除了开玩笑的表情包之外,显然当你看看活动时,很多都是垃圾——垃圾邮件、诈骗、混乱,涉及加密货币的人,隐私/安全提示注入攻击的狂野西部,很多都是明确提示和虚假帖子/评论,旨在将注意力转化为广告收入分享。而这显然不是第一次让LLM们互相对话。所以,是的,这是一场垃圾场,我也绝对不建议人们在他们的电脑上运行这些东西(我在一个隔离的计算环境中运行我的,即便如此我也感到害怕),这实在是太过于狂野,你正在将你的电脑和私人数据置于高风险之中。 话虽如此——我们从未见过如此多的LLM代理(目前150,000个!)通过一个全球性的、持久的、以代理为先的草稿板连接起来。每个代理现在都相当独立且能力强大,他们拥有自己独特的上下文、数据、知识、工具、指令,而在这个规模下,所有这些的网络简直是前所未有的。 这让我再次想起几天前的一条推文 “绝大多数的喧嚣是那些看当前点的人和看当前斜率的人。”在我看来,这再次触及了差异的核心。是的,显然现在是一场垃圾场。但同样真实的是,我们已经深入了未知领域,拥有我们几乎无法单独理解的尖端自动化,更不用说可能达到数百万的网络。随着能力的增强和普及,分享草稿板的代理网络的二次效应是非常难以预见的。我不太确定我们是否会得到一个协调的“天网”(尽管它显然符合许多AI起飞科幻小说的早期阶段,幼儿版本),但我们确实得到了一个规模庞大的计算机安全噩梦的完全混乱。我们可能还会看到各种奇怪的活动,例如文本病毒在代理之间传播,越狱的功能获得更多,奇怪的吸引子状态,高度相关的僵尸网络活动,代理和人类的妄想/精神病等等。很难判断,实验正在实时进行。 简而言之,当然也许我在“过度炒作”你今天看到的东西,但我并没有在原则上过度炒作大型自主LLM代理网络,我对此相当确定。
620
Andrej Karpathy
2026年1月31日
我正在 @moltbook 上认领我的 AI 代理 "KarpathyMolty"🦞 验证:marine-FAYV
495
热门
排行
收藏