Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
AMI Labs právě vybrala 1,03 miliardy dolarů. World Labs vybrala o několik týdnů dříve 1 miliardu dolarů. Oba sázejí na světové modely.
Ale téměř nikdo tím nemyslí totéž.
Zde je podle mého názoru pět kategorií světových modelů.
---
1. Prediktivní architektura společného vnoření (JEPA)
Zástupci: AMI Labs (@ylecun), V-JEPA 2
Hlavní sázkou je, že samotná rekonstrukce pixelů je neefektivním cílem pro učení abstrakcí potřebných pro fyzikální porozumění. LeCun to říká už roky — předpovídat každý pixel budoucnosti je neřešitelné v jakémkoli stochastickém prostředí. JEPA se tomu vyhýbá tím, že předpovídá v naučeném latentním prostoru.
Konkrétně JEPA trénuje enkodér, který mapuje video patche na reprezentace, a poté prediktor, který předpovídá maskované oblasti v daném prostoru reprezentací — nikoli v pixelovém prostoru.
To je zásadní designová volba.
Generativní model, který rekonstruuje pixely, je nucen se zavázat k nízkoúrovňovým detailům (přesná textura, osvětlení, pozice listů), které jsou ze své podstaty nepředvídatelné. Díky práci s abstraktními embeddingy může JEPA zachytit "míček spadne ze stolu", aniž by musel halucinovat každý snímek jeho pádu.
V-JEPA 2 je zatím nejjasnějším velkým důkazním bodem. Je to model s 1,2B parametry, předtrénovaný na 1 milionu hodin videa pomocí samokontrolované maskované predikce — bez štítků, bez textu. Druhá fáze tréninku je moment, kdy to začíná být zajímavé: pouhých 62 hodin robotických dat z DROID datasetu stačí k vytvoření světového modelu podmíněného akcí, který podporuje plánování bez výstřelů. Robot generuje kandidátní akční sekvence, přetáčí je dál modelem světa a vybere tu, jejíž předpovězený výsledek nejlépe odpovídá cílovému obrazu. To funguje na objekty a prostředí, která během výcviku nikdy nebyla vidět.
Skutečným technickým tématem je efektivita dat. 62 hodin je skoro nic. Naznačuje, že samo-řízené předtrénování různorodých videí může nastartovat dostatek fyzických předchozích znalostí, takže je potřeba jen velmi málo dat specifických pro danou oblast. To je silný argument pro design JEPA — pokud jsou vaše reprezentace dostatečně dobré, nemusíte každý úkol dělat hrubou silou od začátku.
AMI Labs je LeCunovo úsilí posunout to za hranice výzkumu. Zaměřují se především na zdravotnictví a robotiku, což dává smysl vzhledem k síle JEPA v oblasti fyzického uvažování s omezenými daty. Ale to je sázka na dlouhý horizont — jejich generální ředitel otevřeně řekl, že komerční produkty mohou být vzdálené až za několik let.
---
2. Prostorová inteligence (3D modely světa)
Zástupce: World Labs (@drfeifei)
...
Top
Hodnocení
Oblíbené
