OpenAI ga nylig ut sin første modell med åpne vekter siden GPT-2, og gikk inn i et felt ledet av DeepSeek og Alibabas Qwen. Ankit (@GuptaAnkitV) bryter ned disse beste OSS-modellene, inkludert hva som skiller dem under panseret: blanding av eksperter, trening med lang kontekst og teknikker etter trening som former resonnement og justering – og hvordan forskjellige designvalg fører til overraskende lik ytelse. 00:00 – OpenAI OSS-lansering 01:00 – Sammenligning av åpen kildekode LLM-arkitekturer 01:46 – GPT OSS-oversikt 02:37 – Under panseret på GPT OSS 03:25 – Qwen-3 Arkitektur 04:17 – Qwen-3 trening 05:12 – Qwen-3 Etter trening 06:08 – Qwen-3 Resonnement og RL-innovasjoner 06:52 – DeepSeek V3 – Oversikt over DeepSeek V3 07:40 - DeepSeek V3.1-oppdateringer 08:39 – Oppmerksomhetsmekanisme (MLA) 09:39 – Sammenligning av modellstørrelser 10:35 – Lange kontekststrategier 11:25 – Refleksjoner over metoder 12:00 – Takeaways
2,62K