DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Zelfs na de steile vooruitgang van de afgelopen 3 maanden blijft het zo dat de prestaties van AI afhankelijk zijn van de bekendheid met de taak. In domeinen die dicht gesampled kunnen worden (via programmatige generatie + verificatie), zijn de prestaties effectief onbeperkt en zullen ze blijven toenemen vanaf de huidige niveaus. In nieuwe, onbekende domeinen blijven de prestaties laag en verdere vooruitgang vereist nog steeds nieuwe ideeën, niet alleen meer data en rekenkracht.

Voor benchmarks die gericht zijn op nieuwe taken, is een veelvoorkomende vorm van benchmark hacking die deze kloof benut, het genereren van een dichte steekproef van potentiële taken door de ruimte handmatig te parameteriseren en deze vervolgens brute-force te doorlopen. Zeer kostbaar, maar het werkt. Er is weinig dat je kunt doen om de validiteit van de benchmark hier te herstellen, behalve de dimensionaliteit van de taakruimte te vergroten.

48

Boven

Positie

Favorieten