OpenAI a récemment publié son premier modèle à poids ouverts depuis GPT-2, entrant dans un domaine dirigé par DeepSeek et Qwen d'Alibaba. Ankit (@GuptaAnkitV) décompose ces principaux modèles OSS, y compris ce qui les distingue sous le capot : mélange d'experts, formation sur de longs contextes et techniques de post-formation qui façonnent le raisonnement et l'alignement—et comment différents choix de conception mènent à des performances étonnamment similaires. 00:00 – Lancement OSS d'OpenAI 01:00 – Comparaison des architectures LLM open source 01:46 – Aperçu de GPT OSS 02:37 – Sous le capot de GPT OSS 03:25 – Architecture de Qwen-3 04:17 – Formation de Qwen-3 05:12 – Post-formation de Qwen-3 06:08 – Raisonnement et innovations RL de Qwen-3 06:52 – Aperçu de DeepSeek V3 07:40 – Mises à jour de DeepSeek V3.1 08:39 – Mécanisme d'attention (MLA) 09:39 – Comparaison des tailles de modèles 10:35 – Stratégies de long contexte 11:25 – Réflexions sur les méthodes 12:00 – Points à retenir
2,59K