Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI ha recentemente rilasciato il suo primo modello open-weights dalla GPT-2, entrando in un campo guidato da DeepSeek e Qwen di Alibaba.
Ankit (@GuptaAnkitV) analizza questi principali modelli OSS, inclusi ciò che li distingue sotto il cofano: miscela di esperti, addestramento a lungo contesto e tecniche post-addestramento che modellano il ragionamento e l'allineamento—e come diverse scelte di design portano a prestazioni sorprendentemente simili.
00:00 – Lancio OSS di OpenAI
01:00 – Confronto delle Architetture LLM Open Source
01:46 – Panoramica su GPT OSS
02:37 – Sotto il Cofano di GPT OSS
03:25 – Architettura di Qwen-3
04:17 – Addestramento di Qwen-3
05:12 – Post-Addestramento di Qwen-3
06:08 – Ragionamento e Innovazioni RL di Qwen-3
06:52 – Panoramica su DeepSeek V3
07:40 – Aggiornamenti di DeepSeek V3.1
08:39 – Meccanismo di Attenzione (MLA)
09:39 – Confronto delle Dimensioni dei Modelli
10:35 – Strategie di Lungo Contesto
11:25 – Riflessioni sui Metodi
12:00 – Conclusioni
2,48K
Principali
Ranking
Preferiti