Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Stavební @EurekaLabsAI. Dříve ředitel AI @ Tesla, zakládající tým @ OpenAI, CS231n/PhD @ Stanford. Rád trénuji velké hluboké neuronové sítě.
V éře předškolního vzdělávání byly důležité internetové textové zprávy. Primárně byste chtěli velkou, rozmanitou a vysoce kvalitní sbírku internetových dokumentů, ze kterých byste se mohli učit.
V době řízeného dolaďování to byly rozhovory. Smluvní pracovníci jsou najímáni, aby vytvářeli odpovědi na otázky, trochu jako to, co byste viděli na Stack Overflow / Quora atd., ale zaměřené na případy použití LLM.
Ani jedno z výše uvedených nezmizí (imo), ale v této éře zpětnovazebního učení je to nyní prostředí. Na rozdíl od výše uvedeného dávají LLM příležitost skutečně interagovat - podnikat akce, vidět výsledky atd. To znamená, že můžete doufat, že se vám podaří mnohem lépe než napodobení statistického odborníka. A lze je použít jak pro trénování modelů, tak pro jejich vyhodnocování. Ale stejně jako dříve, jádrem problému je nyní potřeba velké, rozmanité a vysoce kvalitní sady prostředí, jako cvičení, proti kterým by LLM mohl cvičit.
V některých ohledech mi to připomíná úplně první projekt OpenAI (tělocvična), což byl přesně rámec, který doufal, že vytvoří velkou sbírku prostředí ve stejném schématu, ale to bylo dávno před LLM. Takže prostředí byla v té době jednoduchými akademickými kontrolními úkoly, jako cartpole, ATARI atd. Centrum @PrimeIntellect environments (a úložiště "verifiers" na GitHubu) vytváří modernizovanou verzi specificky zaměřenou na LLM a je to skvělé úsilí/nápad. Navrhl jsem, aby někdo postavil něco podobného na začátku tohoto roku:
Prostředí mají tu vlastnost, že jakmile je kostra rámce na svém místě, v principu se komunita / průmysl může paralelizovat v mnoha různých doménách, což je vzrušující.
Závěrečná myšlenka - osobně a dlouhodobě, jsem optimistický ohledně prostředí a agentických interakcí, ale jsem medvědí konkrétně ohledně posilovaného učení. Myslím si, že funkce odměny jsou super sus a myslím si, že lidé nepoužívají RL k učení (možná to dělají pro některé motorické úkoly atd., ale ne pro intelektuální úkoly na řešení problémů). Lidé používají různá paradigmata učení, která jsou výrazně výkonnější a efektivnější pro vzorkování a která ještě nebyla řádně vynalezena a škálována, i když existují rané náčrty a nápady (jako jeden příklad, myšlenka "systémového promptního učení", přesunutí aktualizace na tokeny/kontexty, nikoli na váhy a volitelně destilace na váhy jako samostatný proces, trochu jako spánek).

Prime Intellect28. 8. 03:16
Představujeme centrum Prostředí
Prostředí RL jsou klíčovou překážkou pro další vlnu pokroku v oblasti umělé inteligence, ale velké laboratoře je blokují
Vybudovali jsme komunitní platformu pro crowdsourcing otevřených prostředí, takže kdokoli může přispívat do open-source AGI
612,77K
Pokračování na cestě k optimálnímu kódování s pomocí LLM. Zejména zjišťuji, že místo toho, abych se zúžil na dokonalou jednu věc, moje použití se stále více diverzifikuje do několika pracovních postupů, u kterých "sešívám" klady a zápory:
Osobně je chléb a máslo (~75%?) mé LLM pomoci je i nadále dokončeno pouze (kurzorová) záložka. Zjistil jsem totiž, že psaní konkrétních kusů kódu/komentářů sám a do správné části kódu je způsob, jak s vysokou šířkou pásma komunikovat "specifikaci úlohy" s LLM, tj. jde primárně o bity specifikace úlohy - zabere to příliš mnoho bitů a příliš velkou latenci sdělit to, co chci v textu, A rychlejší je to prostě demonstrovat v kódu a na správném místě. Někdy je karta kompletní model otravná, takže ji často zapínám/vypínám.
Další vrstvou je zvýraznění konkrétního kusu kódu a žádost o nějakou úpravu.
Další vrstvou je Claude Code / Codex / etc, běžící na straně kurzoru, na který jdu pro větší kusy funkcí, které lze také poměrně snadno specifikovat ve výzvě. Ty jsou velmi užitečné, ale celkově smíšené a občas mírně frustrující. Neběhám v režimu YOLO, protože mohou vyjet z cesty a dělat hloupé věci, které jste nechtěli/nepotřebovali, a já ESC poměrně často. Také jsem se nenaučil být produktivní pomocí více než jedné instance paralelně - jedna už je dost těžká. Nepřišel jsem na dobrý způsob, jak CLAUDE udržet.MD dobré nebo aktuální. Často musím projít "úklidem" stylu kódování nebo záležitostí vkusu kódu. Např. jsou příliš defenzivní a často nadužívají příkazy try/catch, často příliš komplikují abstrakce, příliš nafukují kód (např. vnořené konstrukce if-the-else, když by fungovalo porozumění seznamu nebo jednořádkový if-then-else), nebo duplikují bloky kódu místo vytvoření pěkné pomocné funkce, věci jako... V podstatě nemají smysl pro chuť. Jsou nepostradatelné v případech, kdy se dostanu do oblasti více kódující vibrace, kde jsem méně obeznámen (např. nedávno jsem psal nějakou rez nebo příkazy sql nebo cokoli jiného, co jsem dříve dělal méně). Také jsem zkoušel CC, aby mě naučili věci vedle kódu, který psal, ale to vůbec nefungovalo - opravdu chce mnohem víc jen psát kód, než aby chtěl něco vysvětlovat. Snažil jsem se přimět CC, aby provedl ladění hyperparametrů, což bylo velmi zábavné. Jsou také velmi nápomocní ve všech druzích jednorázových vlastních vizualizací nebo utilit nebo ladění kódu, které bych jinak nikdy nenapsal, protože by to trvalo příliš dlouho. Např. CC dokáže vypracovat 1 000 řádků jednorázové rozsáhlé vizualizace/kódu jen proto, aby identifikoval konkrétní chybu, která je smazána ihned poté, co ji najdeme. Je to éra kódu po nedostatku - můžete prostě vytvořit a pak smazat tisíce řádků super vlastního, super pomíjivého kódu teď, je to v pořádku, už to není ta vzácná nákladná věc.
Poslední vrstvou obrany je GPT5 Pro, ke kterému chodím pro ty nejtěžší věci. Např. už se mi několikrát stalo, že jsem já / kurzor / CC všichni uvízli na chybě po dobu 10 minut, ale když zkopíruji a vložím celou věc do 5 Pro, vypne se na 10 minut, ale pak skutečně najde opravdu jemnou chybu. Je velmi silný. Může vyhrabat všechny druhy esoterických dokumentů a dokumentů a podobně. Používal jsem ho i pro další masitější úkoly, např. návrhy, jak vyčistit abstrakce (smíšené výsledky, někdy dobré nápady, ale ne všechny), nebo celý přehled literatury o tom, jak lidé dělají to či ono, a vrátí se s dobrými relevantními zdroji / ukazateli.
Každopádně kódování působí zcela otevřeně s možnostmi napříč řadou "druhů" kódování a pak řadou nástrojů s jejich klady/zápory. Je těžké vyhnout se pocitu úzkosti z toho, že nejsme na hranici toho, co je kolektivně možné, a proto náhodná nedělní sprška myšlenek a pořádná dávka zvědavosti na to, co ostatní zjišťují.
614,14K
Dostávám ~10 spamových hovorů denně (různé automatizované hlasové zprávy, "předběžné schválení půjčky" atd.) a ~5 spamových zpráv denně (obvykle phishing).
- Mám AT&T Active Armor, vše výše uvedené mi stále uniká.
- Vše výše uvedené je vždy z nových, unikátních čísel, takže blokování nefunguje.
- Jsem na všech seznamech Do Not Call.
- Mám zapnutou funkci "Umlčet neznámé volající" na iOS, ale i když je zachytí a umlčí, stále dostávám upozornění.
Nejste si jisti, zda ostatní lidé vidí něco podobného nebo přišli na něco, co funguje
3,34K
Top
Hodnocení
Oblíbené