DApp Store | Centrum Web3 pro události a hry

Populární témata

AMI Labs právě vybrala 1,03 miliardy dolarů. World Labs vybrala o několik týdnů dříve 1 miliardu dolarů. Oba sázejí na světové modely. Ale téměř nikdo tím nemyslí totéž. Zde je podle mého názoru pět kategorií světových modelů. --- 1. Prediktivní architektura společného vnoření (JEPA) Zástupci: AMI Labs (@ylecun), V-JEPA 2 Hlavní sázkou je, že samotná rekonstrukce pixelů je neefektivním cílem pro učení abstrakcí potřebných pro fyzikální porozumění. LeCun to říká už roky — předpovídat každý pixel budoucnosti je neřešitelné v jakémkoli stochastickém prostředí. JEPA se tomu vyhýbá tím, že předpovídá v naučeném latentním prostoru. Konkrétně JEPA trénuje enkodér, který mapuje video patche na reprezentace, a poté prediktor, který předpovídá maskované oblasti v daném prostoru reprezentací — nikoli v pixelovém prostoru. To je zásadní designová volba. Generativní model, který rekonstruuje pixely, je nucen se zavázat k nízkoúrovňovým detailům (přesná textura, osvětlení, pozice listů), které jsou ze své podstaty nepředvídatelné. Díky práci s abstraktními embeddingy může JEPA zachytit "míček spadne ze stolu", aniž by musel halucinovat každý snímek jeho pádu. V-JEPA 2 je zatím nejjasnějším velkým důkazním bodem. Je to model s 1,2B parametry, předtrénovaný na 1 milionu hodin videa pomocí samokontrolované maskované predikce — bez štítků, bez textu. Druhá fáze tréninku je moment, kdy to začíná být zajímavé: pouhých 62 hodin robotických dat z DROID datasetu stačí k vytvoření světového modelu podmíněného akcí, který podporuje plánování bez výstřelů. Robot generuje kandidátní akční sekvence, přetáčí je dál modelem světa a vybere tu, jejíž předpovězený výsledek nejlépe odpovídá cílovému obrazu. To funguje na objekty a prostředí, která během výcviku nikdy nebyla vidět. Skutečným technickým tématem je efektivita dat. 62 hodin je skoro nic. Naznačuje, že samo-řízené předtrénování různorodých videí může nastartovat dostatek fyzických předchozích znalostí, takže je potřeba jen velmi málo dat specifických pro danou oblast. To je silný argument pro design JEPA — pokud jsou vaše reprezentace dostatečně dobré, nemusíte každý úkol dělat hrubou silou od začátku. AMI Labs je LeCunovo úsilí posunout to za hranice výzkumu. Zaměřují se především na zdravotnictví a robotiku, což dává smysl vzhledem k síle JEPA v oblasti fyzického uvažování s omezenými daty. Ale to je sázka na dlouhý horizont — jejich generální ředitel otevřeně řekl, že komerční produkty mohou být vzdálené až za několik let. --- 2. Prostorová inteligence (3D modely světa) Zástupce: World Labs (@drfeifei) ...

Top

Hodnocení

Oblíbené