热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
即使在过去三个月的快速进展之后,AI 的表现仍然与任务的熟悉度相关。在可以通过程序生成和验证进行密集采样的领域,性能实际上是没有上限的,并将继续从当前水平上提高。在新颖且不熟悉的领域,性能仍然较低,进一步的进展仍然需要新的想法,而不仅仅是更多的数据和计算。

17 小时前
好的,我想我的实验让AI全天候工作到此为止。它不起作用。代码的复杂性爆炸,结果并不理想,AI无法突破硬壁垒(它仍然完全无法*理解* SupGen),而且成本极高(在过去两天花费了大约1000美元)。最佳结果出现在JS编译器上,主要是因为它比较熟悉(与inets相比),但失去对代码库的控制是不值得的。
我认为让AI在后台工作并在重要事情上取得真正进展(即,真正的新事物)的梦想还没有实现。它仍然是一台被困在自己训练数据中的机器,无法跳出框框思考。它非常适合构建已经构建的东西,但不适合新事物。
此外,正常编码有一个被低估的优势,那就是你同时在做两件事:构建代码库*和*学习它。AI只做了一半。另一半显然是不可能的 🤔
对于针对新任务的基准测试,一种常见的基准测试黑客行为是通过手动参数化空间并进行暴力破解来生成潜在任务的密集采样。这非常昂贵,但确实有效。除了增加任务空间的维度外,几乎没有什么可以做来恢复基准的有效性。
55
热门
排行
收藏
