Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Selbst nach dem steilen Fortschritt der letzten 3 Monate bleibt es dabei, dass die Leistung von AI an die Vertrautheit mit Aufgaben gebunden ist. In Bereichen, die dicht gesampelt werden können (durch programmatische Generierung + Verifizierung), ist die Leistung effektiv unbegrenzt und wird weiterhin von den aktuellen Niveaus ansteigen. In neuartigen, unbekannten Bereichen bleibt die Leistung niedrig und weiterer Fortschritt erfordert weiterhin neue Ideen, nicht nur mehr Daten und Rechenleistung.

Vor 18 Stunden
Ok, ich denke, mein Experiment, die KI 24/7 an Sachen arbeiten zu lassen, endet hier. Es funktioniert nicht. Der Code explodiert in Komplexität, die Ergebnisse sind nicht so toll, die KI kann nicht über harte Wände hinweg (sie ist immer noch völlig unfähig, sogar *zu begreifen*, was SupGen ist), und es ist wahnsinnig teuer (habe in den letzten 2 Tagen ~1k ausgegeben). Die besten Ergebnisse gibt es beim JS-Compiler, hauptsächlich weil er vertraut ist (im Vergleich zu inets), aber es ist nicht wert, die Kontrolle über den Code zu verlieren.
Ich denke, der Traum, dass KIs im Hintergrund arbeiten und echte Fortschritte bei wichtigen Dingen (d.h. wirklich neuen Dingen) machen, ist noch nicht da. Es ist immer noch eine Maschine, die fest auf ihren eigenen Trainingsdaten sitzt und nicht in der Lage ist, über den Tellerrand hinaus zu denken. Sie ist großartig darin, Dinge zu bauen, die bereits gebaut wurden. Aber nicht neue Dinge.
Außerdem hat das normale Programmieren den unterbewerteten Vorteil, dass man zwei Dinge gleichzeitig tut: eine Codebasis *aufbauen* und sie lernen. KIs machen nur die Hälfte davon. Die andere Hälfte ist offensichtlich unmöglich 🤔
Für Benchmarks, die neuartige Aufgaben anvisieren, ist eine gängige Form des Benchmark-Hackings, die diese Lücke ausnutzt, eine dichte Stichprobe potenzieller Aufgaben zu generieren, indem der Raum manuell parametrisiert und dann mit Brute-Force angegangen wird. Sehr teuer, aber es funktioniert. Es gibt wenig, was Sie tun können, um die Validität des Benchmarks hier wiederherzustellen, außer die Dimensionalität des Aufgabenraums zu erhöhen.
58
Top
Ranking
Favoriten
