DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Andrej Karpathy

Bauen @EurekaLabsAI. Zuvor Director of AI @ Tesla, Gründungsteam @ OpenAI, CS231n/PhD @ Stanford. Ich trainiere gerne große tiefe neuronale Netze.

In der Ära des Pretrainings war der Internettext entscheidend. Man wollte hauptsächlich eine große, vielfältige und qualitativ hochwertige Sammlung von Internetdokumenten, um daraus zu lernen. In der Ära des überwachten Feintunings waren es Gespräche. Vertragsarbeiter werden eingestellt, um Antworten auf Fragen zu erstellen, ähnlich wie man es auf Stack Overflow / Quora usw. sehen würde, aber ausgerichtet auf LLM-Anwendungsfälle. Keine der beiden oben genannten wird verschwinden (meiner Meinung nach), aber in dieser Ära des verstärkenden Lernens sind es jetzt die Umgebungen. Im Gegensatz zu den oben genannten geben sie dem LLM die Möglichkeit, tatsächlich zu interagieren - Aktionen zu ergreifen, Ergebnisse zu sehen usw. Das bedeutet, dass man hoffen kann, viel besser abzuschneiden als bei der statistischen Expertenimitation. Und sie können sowohl für das Training als auch für die Bewertung des Modells verwendet werden. Aber wie zuvor besteht das Kernproblem jetzt darin, eine große, vielfältige und qualitativ hochwertige Sammlung von Umgebungen zu benötigen, als Übungen, gegen die das LLM üben kann. In gewisser Weise erinnert es mich an OpenAIs allererstes Projekt (Gym), das genau ein Framework war, das hoffte, eine große Sammlung von Umgebungen im gleichen Schema aufzubauen, aber das war lange bevor LLMs existierten. Die Umgebungen waren einfache akademische Kontrollaufgaben der damaligen Zeit, wie Cartpole, ATARI usw. Das @PrimeIntellect-Umgebungen-Hub (und das `verifiers`-Repo auf GitHub) baut die modernisierte Version, die speziell auf LLMs abzielt, und es ist eine großartige Anstrengung/Idee. Ich habe vorgeschlagen, dass jemand etwas Ähnliches wie das Anfang dieses Jahres aufbaut: Umgebungen haben die Eigenschaft, dass, sobald das Grundgerüst des Frameworks vorhanden ist, die Gemeinschaft/Industrie prinzipiell über viele verschiedene Bereiche parallelisieren kann, was aufregend ist. Letzter Gedanke - persönlich und langfristig bin ich optimistisch in Bezug auf Umgebungen und agentische Interaktionen, aber ich bin pessimistisch in Bezug auf verstärkendes Lernen speziell. Ich denke, dass Belohnungsfunktionen super sus sind, und ich denke, dass Menschen RL nicht zum Lernen verwenden (vielleicht tun sie das für einige motorische Aufgaben usw., aber nicht für intellektuelle Problemlösungsaufgaben). Menschen verwenden verschiedene Lernparadigmen, die erheblich leistungsfähiger und stichproben-effizienter sind und die noch nicht richtig erfunden und skaliert wurden, obwohl frühe Skizzen und Ideen existieren (als nur ein Beispiel die Idee des "System Prompt Learning", bei dem das Update auf Tokens/Contexts und nicht auf Gewichte verschoben wird und optional in Gewichte destilliert wird, als separater Prozess, ähnlich wie es der Schlaf tut).

Die Reise zu einem optimalen, LLM-unterstützten Programmiererlebnis fortsetzen. Insbesondere stelle ich fest, dass ich anstatt mich auf eine perfekte Lösung zu konzentrieren, meine Nutzung zunehmend über einige Workflows diversifiziert, die ich "zusammenfüge" aus den Vor- und Nachteilen: Persönlich bleibt das Brot und Butter (~75%?) meiner LLM-Unterstützung einfach (Cursor) Tab-Vervollständigung. Das liegt daran, dass ich finde, dass das Schreiben konkreter Code-/Kommentarabschnitte selbst und an der richtigen Stelle im Code eine hochgradige Möglichkeit ist, "Aufgabenspezifikation" an das LLM zu kommunizieren, d.h. es geht hauptsächlich um die Bits der Aufgabenspezifikation - es braucht zu viele Bits und zu viel Latenz, um zu kommunizieren, was ich in Textform möchte, und es ist schneller, es einfach im Code und am richtigen Ort zu demonstrieren. Manchmal ist das Tab-Vervollständigungsmodell nervig, also schalte ich es oft ein/aus. Die nächste Ebene besteht darin, einen konkreten Codeabschnitt zu markieren und um eine Art Modifikation zu bitten. Die nächste Ebene ist Claude Code / Codex / usw., die neben Cursor laufen, auf die ich für größere Funktionalitäten zugreife, die ebenfalls recht einfach in einem Prompt zu spezifizieren sind. Diese sind super hilfreich, aber insgesamt immer noch gemischt und manchmal etwas frustrierend. Ich arbeite nicht im YOLO-Modus, weil sie vom Kurs abkommen und dumme Dinge tun, die ich nicht wollte/brauchte, und ich drücke ziemlich oft ESC. Ich habe auch nicht gelernt, produktiv mehr als eine Instanz parallel zu nutzen - eine fühlt sich schon schwer genug an. Ich habe keinen guten Weg gefunden, CLAUDE[.]md gut oder aktuell zu halten. Oft muss ich eine "Aufräumaktion" für den Programmierstil oder Fragen des Codegeschmacks durchführen. Zum Beispiel sind sie zu defensiv und verwenden oft zu viele try/catch-Anweisungen, sie komplizieren oft Abstraktionen übermäßig, sie blähen den Code auf (z.B. verschachtelte if-else-Konstrukte, wenn eine Listenverständnis oder eine Einzeiler if-then-else funktionieren würde), oder sie duplizieren Codeabschnitte, anstatt eine schöne Hilfsfunktion zu erstellen, solche Dinge... sie haben im Grunde kein Gespür für Geschmack. Sie sind unverzichtbar in Fällen, in denen ich in ein mehr vibe-coding Gebiet vordringe, in dem ich weniger vertraut bin (z.B. kürzlich etwas Rust geschrieben, oder SQL-Befehle, oder alles andere, was ich weniger gemacht habe). Ich habe auch versucht, CC dazu zu bringen, mir Dinge neben dem Code, den es geschrieben hat, beizubringen, aber das hat überhaupt nicht funktioniert - es möchte wirklich viel mehr Code schreiben, als irgendetwas auf dem Weg zu erklären. Ich habe versucht, CC zur Hyperparameteroptimierung zu bringen, was sehr amüsant war. Sie sind auch super hilfreich bei allen Arten von weniger riskanten einmaligen benutzerdefinierten Visualisierungen oder Dienstprogrammen oder Debugging-Code, die ich sonst nie schreiben würde, weil es viel zu lange gedauert hätte. Zum Beispiel kann CC 1.000 Zeilen einmaliger umfangreicher Visualisierung/Code erstellen, nur um einen bestimmten Fehler zu identifizieren, der sofort nach dem Finden gelöscht wird. Es ist die Ära des Code-Post-Scarcity - man kann einfach erstellen und dann Tausende von Zeilen super benutzerdefinierten, super flüchtigen Codes löschen, es ist in Ordnung, es ist nicht mehr dieses kostbare, teure Ding. Die letzte Verteidigungsebene ist GPT5 Pro, auf die ich für die schwierigsten Dinge zugreife. Zum Beispiel ist es mir jetzt schon ein paar Mal passiert, dass ich / Cursor / CC alle 10 Minuten bei einem Fehler feststecken, aber wenn ich das Ganze zu 5 Pro kopiere und einfüge, geht es 10 Minuten lang, findet dann aber tatsächlich einen sehr subtilen Fehler. Es ist sehr stark. Es kann alle Arten von esoterischen Dokumenten und Papieren und so weiter aufgraben. Ich habe es auch für andere umfangreiche Aufgaben verwendet, z.B. Vorschläge, wie man Abstraktionen aufräumen kann (gemischte Ergebnisse, manchmal gute Ideen, aber nicht alle), oder eine gesamte Literaturübersicht darüber, wie Menschen dies oder das tun, und es kommt mit guten relevanten Ressourcen/Hinweisen zurück. Wie auch immer, Programmieren fühlt sich völlig offen an mit Möglichkeiten über eine Reihe von "Arten" des Programmierens und dann eine Reihe von Werkzeugen mit ihren Vor- und Nachteilen. Es ist schwer, das Gefühl der Angst zu vermeiden, nicht an der Spitze dessen zu sein, was kollektiv möglich ist, daher der zufällige Sonntag-Duschgedanken und eine gute Portion Neugier darüber, was andere finden.

Top

Ranking

Favoriten