Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Andrej Karpathy

Budynek @EurekaLabsAI. Wcześniej dyrektor AI @ Tesla, zespół założycielski @ OpenAI, CS231n/PhD @ Stanford. Lubię trenować duże, głębokie sieci neuronowe.

W erze wstępnego uczenia, to, co miało znaczenie, to teksty z internetu. Głównie chciałbyś mieć dużą, różnorodną, wysokiej jakości kolekcję dokumentów internetowych, z których można się uczyć. W erze nadzorowanego dostrajania, to były rozmowy. Zatrudniani są pracownicy kontraktowi do tworzenia odpowiedzi na pytania, trochę jak to, co można zobaczyć na Stack Overflow / Quora, czy innych, ale skierowane w stronę zastosowań LLM. Żadne z powyższych nie zniknie (moim zdaniem), ale w tej erze uczenia przez wzmocnienie, to teraz środowiska. W przeciwieństwie do powyższych, dają LLM możliwość rzeczywistej interakcji - podejmowania działań, obserwowania wyników itd. Oznacza to, że można mieć nadzieję na znacznie lepsze wyniki niż statystyczna imitacja ekspertów. Mogą być używane zarówno do treningu modelu, jak i oceny. Ale tak jak wcześniej, podstawowym problemem jest teraz potrzeba dużego, różnorodnego, wysokiej jakości zestawu środowisk, jako ćwiczeń dla LLM do praktyki. W pewnym sensie przypomina mi to pierwszy projekt OpenAI (gym), który był dokładnie ramą mającą na celu zbudowanie dużej kolekcji środowisk w tym samym schemacie, ale to było dużo przed LLM. Tak więc środowiska były prostymi akademickimi zadaniami kontrolnymi tamtych czasów, takimi jak cartpole, ATARI itd. Hub środowisk @PrimeIntellect (i repozytorium `verifiers` na GitHubie) buduje zmodernizowaną wersję, skierowaną specjalnie na LLM, i to jest świetny wysiłek/pomysł. Zasugerowałem, że ktoś zbuduje coś podobnego na początku tego roku: Środowiska mają tę właściwość, że gdy szkielet ramy jest na miejscu, w zasadzie społeczność/branża może równolegle działać w wielu różnych dziedzinach, co jest ekscytujące. Ostatnia myśl - osobiście i długoterminowo, jestem optymistyczny co do środowisk i interakcji agentowych, ale pesymistyczny co do uczenia przez wzmocnienie w szczególności. Uważam, że funkcje nagrody są bardzo podejrzane, i myślę, że ludzie nie używają RL do nauki (może robią to w przypadku niektórych zadań motorycznych itd., ale nie w zadaniach rozwiązywania problemów intelektualnych). Ludzie używają różnych paradygmatów uczenia, które są znacznie potężniejsze i bardziej efektywne pod względem próbkowania i które nie zostały jeszcze odpowiednio wynalezione i skalowane, chociaż istnieją wczesne szkice i pomysły (jako jeden przykład, pomysł "uczenia się z podpowiedzi systemowych", przenosząc aktualizację na tokeny/konteksty, a nie wagi i opcjonalnie destylując do wag jako osobny proces, trochę jak sen).

Kontynuując podróż w kierunku optymalnego doświadczenia kodowania wspomaganego przez LLM. W szczególności zauważam, że zamiast skupiać się na jednym idealnym rozwiązaniu, moje wykorzystanie coraz bardziej różnicuje się na kilka przepływów pracy, które "zszywam" w zależności od zalet i wad: Osobiście podstawą (~75%?) mojej pomocy LLM nadal jest po prostu (Cursor) uzupełnianie tabulacji. Dzieje się tak, ponieważ uważam, że pisanie konkretnych fragmentów kodu/komentarzy samodzielnie i w odpowiedniej części kodu to sposób komunikacji "specyfikacji zadania" do LLM o dużej przepustowości, tzn. chodzi głównie o fragmenty specyfikacji zadania - komunikowanie tego, czego chcę w tekście, zajmuje zbyt wiele czasu i wymaga zbyt dużej latencji, a szybciej jest po prostu pokazać to w kodzie i w odpowiednim miejscu. Czasami model uzupełniania tabulacji jest irytujący, więc często go włączam/wyłączam. Następnym poziomem jest podświetlenie konkretnego fragmentu kodu i poproszenie o jakąś modyfikację. Kolejnym poziomem jest Claude Code / Codex / itd., działający obok Cursor, którego używam do większych fragmentów funkcjonalności, które również są dość łatwe do określenia w poleceniu. Są one bardzo pomocne, ale wciąż mieszane ogólnie i czasami nieco frustrujące. Nie działam w trybie YOLO, ponieważ mogą zbaczać z tematu i robić głupie rzeczy, których nie chciałem/nie potrzebowałem, a często naciskam ESC. Nie nauczyłem się również być produktywnym, używając więcej niż jednej instancji równolegle - jedna już wydaje się wystarczająco trudna. Nie wymyśliłem dobrego sposobu na utrzymanie CLAUDE[.]md w dobrym stanie lub na bieżąco. Często muszę przeprowadzić "czyszczenie" pod kątem stylu kodowania lub kwestii smaku kodu. Na przykład są zbyt defensywni i często nadmiernie używają instrukcji try/catch, często nadmiernie komplikują abstrakcje, nadmiernie rozbudowują kod (np. zagnieżdżone konstrukcje if-else, gdy list comprehension lub jednolinijkowy if-then-else by wystarczyły), lub duplikują fragmenty kodu zamiast stworzyć ładną funkcję pomocniczą, takie rzeczy... zasadniczo nie mają poczucia smaku. Są niezastąpione w przypadkach, gdy wkraczam w bardziej kreatywne terytorium kodowania, w którym jestem mniej zaznajomiony (np. ostatnio pisząc w rust, lub polecenia sql, lub cokolwiek innego, co robiłem mniej wcześniej). Próbowałem również CC, aby nauczyło mnie rzeczy obok kodu, który pisało, ale to w ogóle nie zadziałało - naprawdę chce po prostu pisać kod znacznie bardziej niż wyjaśniać cokolwiek po drodze. Próbowałem zmusić CC do dostrajania hiperparametrów, co było bardzo zabawne. Są również bardzo pomocne w różnych niskostawkowych jednorazowych wizualizacjach lub narzędziach użytkowych czy kodzie debugującym, których nigdy bym nie napisał, ponieważ zajęłoby to zbyt dużo czasu. Na przykład CC może stworzyć 1 000 linii jednorazowego, rozbudowanego kodu wizualizacji, aby zidentyfikować konkretny błąd, który zostaje usunięty zaraz po jego znalezieniu. To era post-skarbowa kodu - możesz po prostu tworzyć, a następnie usuwać tysiące linii super niestandardowego, super efemerycznego kodu, to w porządku, to już nie jest coś cennego i kosztownego. Ostatnią warstwą obrony jest GPT5 Pro, którego używam do najtrudniejszych rzeczy. Na przykład zdarzyło mi się kilka razy, że ja / Cursor / CC utknęliśmy na błędzie przez 10 minut, ale kiedy kopiuję i wklejam wszystko do 5 Pro, działa przez 10 minut, ale potem rzeczywiście znajduje bardzo subtelny błąd. Jest bardzo silny. Może odkrywać wszelkiego rodzaju esoteryczne dokumenty i artykuły. Używałem go również do innych bardziej mięsistych zadań, np. sugestii dotyczących tego, jak oczyścić abstrakcje (mieszane wyniki, czasami dobre pomysły, ale nie wszystkie), lub całego przeglądu literatury na temat tego, jak ludzie to robią, i wraca z dobrymi, odpowiednimi zasobami / wskazówkami. W każdym razie, kodowanie wydaje się całkowicie otwarte na możliwości w różnych "rodzajach" kodowania i w różnych narzędziach z ich zaletami i wadami. Trudno uniknąć uczucia niepokoju związanego z tym, że nie jestem na czołowej pozycji tego, co jest kolektywnie możliwe, stąd przypadkowe myśli w niedzielny prysznic i spora ciekawość tego, co znajdują inni.

Najlepsze

Ranking

Ulubione