OpenAI ha recentemente rilasciato il suo primo modello open-weights dalla GPT-2, entrando in un campo guidato da DeepSeek e Qwen di Alibaba. Ankit (@GuptaAnkitV) analizza questi principali modelli OSS, inclusi ciò che li distingue sotto il cofano: miscela di esperti, addestramento a lungo contesto e tecniche post-addestramento che modellano il ragionamento e l'allineamento—e come diverse scelte di design portano a prestazioni sorprendentemente simili. 00:00 – Lancio OSS di OpenAI 01:00 – Confronto delle Architetture LLM Open Source 01:46 – Panoramica su GPT OSS 02:37 – Sotto il Cofano di GPT OSS 03:25 – Architettura di Qwen-3 04:17 – Addestramento di Qwen-3 05:12 – Post-Addestramento di Qwen-3 06:08 – Ragionamento e Innovazioni RL di Qwen-3 06:52 – Panoramica su DeepSeek V3 07:40 – Aggiornamenti di DeepSeek V3.1 08:39 – Meccanismo di Attenzione (MLA) 09:39 – Confronto delle Dimensioni dei Modelli 10:35 – Strategie di Lungo Contesto 11:25 – Riflessioni sui Metodi 12:00 – Conclusioni
2,48K