Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI nedávno vydala svůj první model s otevřenými váhami od GPT-2, čímž vstoupila do oblasti vedené společnostmi DeepSeek a Qwen od Alibaba.
Ankit (@GuptaAnkitV) rozebírá tyto špičkové modely OSS, včetně toho, co je odlišuje pod kapotou: směs odborníků, trénink v dlouhodobém kontextu a post-tréninkové techniky, které formují uvažování a sladění – a jak různé volby designu vedou k překvapivě podobnému výkonu.
00:00 – Spuštění OpenAI OSS
01:00 – Porovnání architektur LLM s otevřeným zdrojovým kódem
01:46 – Přehled GPT OSS
02:37 – Pod kapotou GPT OSS
03:25 – Architektura Qwen-3
04:17 – Trénink Qwen-3
05:12 – Qwen-3 po tréninku
06:08 – Qwen-3 Uvažování a inovace RL
06:52 – Přehled DeepSeek V3
07:40 – Aktualizace DeepSeek v3.1
08:39 – Mechanismus pozornosti (MLA)
09:39 – Porovnání velikostí modelů
10:35 – Strategie s dlouhým kontextem
11:25 – Úvahy o metodách
12:00 – Jídlo s sebou
2,51K
Top
Hodnocení
Oblíbené