Zelfs na de steile vooruitgang van de afgelopen 3 maanden blijft het zo dat de prestaties van AI afhankelijk zijn van de bekendheid met de taak. In domeinen die dicht gesampled kunnen worden (via programmatige generatie + verificatie), zijn de prestaties effectief onbeperkt en zullen ze blijven toenemen vanaf de huidige niveaus. In nieuwe, onbekende domeinen blijven de prestaties laag en verdere vooruitgang vereist nog steeds nieuwe ideeën, niet alleen meer data en rekenkracht.
Taelin
Taelin16 uur geleden
Ok, ik denk dat mijn experiment om AI 24/7 aan het werk te zetten hier eindigt. Het werkt niet. De code explodeert in complexiteit, de resultaten zijn niet zo geweldig, de AI kan niet voorbij harde muren komen (het is nog steeds volledig niet in staat om zelfs maar *te begrijpen* SupGen), en het is belachelijk duur (ongeveer 1k uitgegeven in de afgelopen 2 dagen). De beste resultaten zijn op de JS-compiler, vooral omdat het vertrouwd is (vergeleken met inets), maar het is het niet waard om de controle over de codebase te verliezen. Ik denk dat de droom om AI's op de achtergrond te laten werken en echte vooruitgang te boeken op dingen die ertoe doen (d.w.z. echt nieuwe dingen) nog niet hier is. Het is nog steeds een machine die vastzit aan zijn eigen trainingsdata, niet in staat om buiten de gebaande paden te denken. Het is geweldig voor het bouwen van dingen die al gebouwd zijn. Maar niet voor nieuwe dingen. Ook heeft normaal coderen het ondergewaardeerde voordeel dat je twee dingen tegelijk doet: een codebase *bouwen* en deze leren. AI's doen slechts de helft daarvan. De andere helft is duidelijk onmogelijk 🤔
Voor benchmarks die gericht zijn op nieuwe taken, is een veelvoorkomende vorm van benchmark hacking die deze kloof benut, het genereren van een dichte steekproef van potentiële taken door de ruimte handmatig te parameteriseren en deze vervolgens brute-force te doorlopen. Zeer kostbaar, maar het werkt. Er is weinig dat je kunt doen om de validiteit van de benchmark hier te herstellen, behalve de dimensionaliteit van de taakruimte te vergroten.
48