OpenAI niedawno wydało swój pierwszy model z otwartymi wagami od czasu GPT-2, wkraczając w dziedzinę prowadzoną przez DeepSeek i Qwen firmy Alibaba. Ankit (@GuptaAnkitV) analizuje te najlepsze modele OSS, w tym to, co je wyróżnia pod względem technicznym: mieszanka ekspertów, trening na długim kontekście oraz techniki po treningu, które kształtują rozumowanie i dostosowanie — oraz jak różne wybory projektowe prowadzą do zaskakująco podobnych wyników. 00:00 – Uruchomienie OpenAI OSS 01:00 – Porównanie architektur LLM z otwartym kodem źródłowym 01:46 – Przegląd GPT OSS 02:37 – Co kryje się za GPT OSS 03:25 – Architektura Qwen-3 04:17 – Trening Qwen-3 05:12 – Post-trening Qwen-3 06:08 – Rozumowanie i innowacje RL w Qwen-3 06:52 – Przegląd DeepSeek V3 07:40 – Aktualizacje DeepSeek V3.1 08:39 – Mechanizm uwagi (MLA) 09:39 – Porównanie rozmiarów modeli 10:35 – Strategie długiego kontekstu 11:25 – Refleksje na temat metod 12:00 – Wnioski
2,51K