热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Andrej Karpathy
建筑@EurekaLabsAI。曾任人工智能总监@特斯拉,创始团队@OpenAI,CS231n/博士@斯坦福大学。我喜欢训练大型深度神经网络。
在预训练时代,重要的是互联网文本。你主要希望拥有一个大型、多样化、高质量的互联网文档集合来学习。
在监督微调时代,重要的是对话。雇佣合同工来为问题创建答案,有点像你在 Stack Overflow / Quora 等地方看到的,但更针对 LLM 的用例。
我认为上述两者都不会消失,但在这个强化学习的时代,现在重要的是环境。与上述不同,它们给 LLM 提供了实际互动的机会——采取行动、查看结果等。这意味着你可以希望比统计专家模仿做得更好。它们可以用于模型训练和评估。但就像以前一样,现在的核心问题是需要一个大型、多样化、高质量的环境集合,作为 LLM 练习的练习场。
在某种程度上,我想起了 OpenAI 的第一个项目(gym),这正是一个希望建立一个大型环境集合的框架,但那是在 LLM 之前。因此,这些环境是当时简单的学术控制任务,比如 cartpole、ATARI 等。@PrimeIntellect 环境中心(以及 GitHub 上的 `verifiers` 仓库)构建了现代化版本,专门针对 LLM,这是一个伟大的努力/想法。今年早些时候,我建议有人构建类似的东西:
环境具有这样的特性,一旦框架的骨架到位,原则上社区/行业可以在许多不同领域并行化,这令人兴奋。
最后的想法——就个人和长期而言,我对环境和代理互动持乐观态度,但对强化学习持悲观态度。我认为奖励函数非常可疑,我认为人类并不使用 RL 来学习(也许他们在某些运动任务等方面使用,但在智力问题解决任务中并不使用)。人类使用不同的学习范式,这些范式显著更强大且样本效率更高,而这些范式尚未得到适当的发明和扩展,尽管早期的草图和想法已经存在(例如,“系统提示学习”的想法,将更新移动到令牌/上下文而不是权重,并可选择将其提炼为权重,作为一个类似于睡眠的单独过程)。

Prime Intellect8月28日 03:16
介绍环境中心
RL环境是下一波AI进步的关键瓶颈,但大型实验室正在封锁它们
我们建立了一个社区平台,用于众包开放环境,以便任何人都可以为开源AGI做出贡献
797.2K
继续优化 LLM 辅助编码体验的旅程。特别是,我发现与其专注于一个完美的东西,我的使用越来越多样化,跨越几个工作流程,我将其 "拼接" 优缺点:
就我个人而言,我的 LLM 辅助的主力(约 75%?)仍然是 (Cursor) 的 tab 补全。这是因为我发现自己在代码的正确部分编写具体的代码/注释是一种高带宽的方式来与 LLM 进行 "任务规范" 的沟通,也就是说,主要是关于任务规范的部分——用文本沟通我想要的内容需要太多的位和太多的延迟,而在代码中以正确的地方展示它更快。有时 tab 补全模型很烦人,所以我经常切换它的开关。
下一层是突出显示一段具体的代码并请求某种修改。
再上一层是 Claude Code / Codex / 等等,运行在 Cursor 的旁边,我会去使用它们来处理一些功能较大的代码块,这些代码块在提示中也相对容易指定。这些非常有帮助,但总体上仍然是混合的,有时略显沮丧。我不以 YOLO 模式运行,因为它们可能会偏离轨道,做出你不想要/需要的愚蠢事情,我经常按 ESC。我也还没有学会如何有效地使用多个实例并行——一个已经感觉够难的了。我还没有找到保持 CLAUDE[.]md 良好或最新的好方法。我经常需要进行 "清理" 的过程,以符合编码风格或代码品味的问题。例如,它们过于防御性,常常过度使用 try/catch 语句,常常过于复杂化抽象,代码过于臃肿(例如,当列表推导或一行的 if-then-else 可以工作时,使用嵌套的 if-else 结构),或者它们重复代码块而不是创建一个好的辅助函数,诸如此类……它们基本上没有品味。在我逐渐进入一个我不太熟悉的 vibe-coding 领域时,它们是不可或缺的(例如,最近写一些 rust,或者 sql 命令,或者我之前做得较少的任何其他事情)。我还尝试让 CC 在编写代码的同时教我东西,但这根本没有效果——它真的更想写代码,而不是在过程中解释任何东西。我尝试让 CC 进行超参数调优,这非常有趣。它们在所有种类的低风险一次性自定义可视化或工具或调试代码中也非常有帮助,我绝对不会自己编写这些代码,因为这会花费太长时间。例如,CC 可以快速生成 1,000 行一次性的广泛可视化/代码,仅仅是为了识别一个特定的 bug,而在我们找到它后,这些代码会被全部删除。这是代码后稀缺时代——你可以创建然后删除成千上万行超级自定义、超级短暂的代码,现在没关系,这不再是这种珍贵而昂贵的东西。
最后的防线是 GPT5 Pro,我会去处理最困难的事情。例如,我已经发生过几次,我 / Cursor / CC 都在一个 bug 上卡了 10 分钟,但当我将整个内容复制粘贴到 5 Pro 时,它会运行 10 分钟,但最终确实找到了一个非常微妙的 bug。它非常强大。它可以挖掘各种深奥的文档和论文等。我还用它处理其他更重要的任务,例如关于如何清理抽象的建议(结果混合,有时有好的想法,但并非全部),或者关于人们如何做这个或那个的整个文献综述,它会返回相关的资源/指针。
无论如何,编码感觉在多种 "类型" 的编码和许多工具的优缺点之间完全被打开了可能性。很难避免对未能处于集体可能性的前沿感到焦虑,因此随机的星期天洗澡思考和对他人发现的好奇心。
614.65K
热门
排行
收藏