Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI ga nylig ut sin første modell med åpne vekter siden GPT-2, og gikk inn i et felt ledet av DeepSeek og Alibabas Qwen.
Ankit (@GuptaAnkitV) bryter ned disse beste OSS-modellene, inkludert hva som skiller dem under panseret: blanding av eksperter, trening med lang kontekst og teknikker etter trening som former resonnement og justering – og hvordan forskjellige designvalg fører til overraskende lik ytelse.
00:00 – OpenAI OSS-lansering
01:00 – Sammenligning av åpen kildekode LLM-arkitekturer
01:46 – GPT OSS-oversikt
02:37 – Under panseret på GPT OSS
03:25 – Qwen-3 Arkitektur
04:17 – Qwen-3 trening
05:12 – Qwen-3 Etter trening
06:08 – Qwen-3 Resonnement og RL-innovasjoner
06:52 – DeepSeek V3 – Oversikt over DeepSeek V3
07:40 - DeepSeek V3.1-oppdateringer
08:39 – Oppmerksomhetsmekanisme (MLA)
09:39 – Sammenligning av modellstørrelser
10:35 – Lange kontekststrategier
11:25 – Refleksjoner over metoder
12:00 – Takeaways
2,62K
Topp
Rangering
Favoritter