OpenAI nedávno vydala svůj první model s otevřenými váhami od GPT-2, čímž vstoupila do oblasti vedené společnostmi DeepSeek a Qwen od Alibaba. Ankit (@GuptaAnkitV) rozebírá tyto špičkové modely OSS, včetně toho, co je odlišuje pod kapotou: směs odborníků, trénink v dlouhodobém kontextu a post-tréninkové techniky, které formují uvažování a sladění – a jak různé volby designu vedou k překvapivě podobnému výkonu. 00:00 – Spuštění OpenAI OSS 01:00 – Porovnání architektur LLM s otevřeným zdrojovým kódem 01:46 – Přehled GPT OSS 02:37 – Pod kapotou GPT OSS 03:25 – Architektura Qwen-3 04:17 – Trénink Qwen-3 05:12 – Qwen-3 po tréninku 06:08 – Qwen-3 Uvažování a inovace RL 06:52 – Přehled DeepSeek V3 07:40 – Aktualizace DeepSeek v3.1 08:39 – Mechanismus pozornosti (MLA) 09:39 – Porovnání velikostí modelů 10:35 – Strategie s dlouhým kontextem 11:25 – Úvahy o metodách 12:00 – Jídlo s sebou
2,51K