Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI niedawno wydało swój pierwszy model z otwartymi wagami od czasu GPT-2, wkraczając w dziedzinę prowadzoną przez DeepSeek i Qwen firmy Alibaba.
Ankit (@GuptaAnkitV) analizuje te najlepsze modele OSS, w tym to, co je wyróżnia pod względem technicznym: mieszanka ekspertów, trening na długim kontekście oraz techniki po treningu, które kształtują rozumowanie i dostosowanie — oraz jak różne wybory projektowe prowadzą do zaskakująco podobnych wyników.
00:00 – Uruchomienie OpenAI OSS
01:00 – Porównanie architektur LLM z otwartym kodem źródłowym
01:46 – Przegląd GPT OSS
02:37 – Co kryje się za GPT OSS
03:25 – Architektura Qwen-3
04:17 – Trening Qwen-3
05:12 – Post-trening Qwen-3
06:08 – Rozumowanie i innowacje RL w Qwen-3
06:52 – Przegląd DeepSeek V3
07:40 – Aktualizacje DeepSeek V3.1
08:39 – Mechanizm uwagi (MLA)
09:39 – Porównanie rozmiarów modeli
10:35 – Strategie długiego kontekstu
11:25 – Refleksje na temat metod
12:00 – Wnioski
2,51K
Najlepsze
Ranking
Ulubione