即使在過去三個月的急劇進展之後,AI 的表現仍然與任務的熟悉度相關。在可以密集取樣的領域(通過程式生成 + 驗證),表現實際上是無限制的,並將持續從當前水平上升。在新穎且不熟悉的領域,表現仍然較低,進一步的進展仍然需要新的想法,而不僅僅是更多的數據和計算能力。
Taelin
Taelin12 小時前
好的,我想我的實驗讓 AI 24/7 工作到此結束。這行不通。代碼的複雜性爆炸,結果並不理想,AI 無法突破困難的牆壁(它仍然完全無法甚至 *理解* SupGen),而且成本極高(在過去兩天花了約 1k)。最佳結果出現在 JS 編譯器上,主要是因為它熟悉(與 inets 相比),但不值得失去對代碼庫的控制。 我認為讓 AI 在背景中工作並在重要的事情上取得真正進展(即,真正的新事物)的夢想還未實現。它仍然是一台被困在自己訓練數據中的機器,無法跳出框架思考。它非常適合構建已經建好的東西。但不適合新事物。 此外,編碼通常有一個被低估的優勢,那就是你同時在做兩件事:構建代碼庫 *和* 學習它。AI 只做了一半。另一半顯然是不可能的 🤔
針對新任務的基準測試,一種常見的基準測試黑客手法是通過手動參數化空間並進行暴力破解來生成潛在任務的密集抽樣。這非常昂貴,但有效。除了增加任務空間的維度外,幾乎無法恢復基準的有效性。
17