Più il compito è difficile, meno ti importa della razza o del sesso delle persone o di qualsiasi altra cosa, sia in senso razzista che in senso di diversità. Sei così disperato di trovare qualcuno che possa farlo bene che non pensi ad altro.
OpenAI ha recentemente rilasciato il suo primo modello open-weights dalla GPT-2, entrando in un campo guidato da DeepSeek e Qwen di Alibaba.
Ankit (@GuptaAnkitV) analizza questi principali modelli OSS, inclusi ciò che li distingue sotto il cofano: miscela di esperti, addestramento a lungo contesto e tecniche post-addestramento che modellano il ragionamento e l'allineamento—e come diverse scelte di design portano a prestazioni sorprendentemente simili.
00:00 – Lancio OSS di OpenAI
01:00 – Confronto delle Architetture LLM Open Source
01:46 – Panoramica su GPT OSS
02:37 – Sotto il Cofano di GPT OSS
03:25 – Architettura di Qwen-3
04:17 – Addestramento di Qwen-3
05:12 – Post-Addestramento di Qwen-3
06:08 – Ragionamento e Innovazioni RL di Qwen-3
06:52 – Panoramica su DeepSeek V3
07:40 – Aggiornamenti di DeepSeek V3.1
08:39 – Meccanismo di Attenzione (MLA)
09:39 – Confronto delle Dimensioni dei Modelli
10:35 – Strategie di Lungo Contesto
11:25 – Riflessioni sui Metodi
12:00 – Conclusioni