OpenAI недавно выпустила свою первую модель с открытыми весами с момента GPT-2, вступив в область, возглавляемую DeepSeek и Qwen от Alibaba. Анкит (@GuptaAnkitV) разбирает эти топовые OSS модели, включая то, что отличает их друг от друга под капотом: смесь экспертов, обучение на длинном контексте и методы постобучения, которые формируют рассуждения и выравнивание — и как разные дизайнерские решения приводят к удивительно схожей производительности. 00:00 – Запуск OpenAI OSS 01:00 – Сравнение архитектур Open Source LLM 01:46 – Обзор GPT OSS 02:37 – Под капотом GPT OSS 03:25 – Архитектура Qwen-3 04:17 – Обучение Qwen-3 05:12 – Постобучение Qwen-3 06:08 – Рассуждения и инновации RL Qwen-3 06:52 – Обзор DeepSeek V3 07:40 – Обновления DeepSeek V3.1 08:39 – Механизм внимания (MLA) 09:39 – Сравнение размеров моделей 10:35 – Стратегии длинного контекста 11:25 – Рефлексии по методам 12:00 – Выводы
2,63K