Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI недавно выпустила свою первую модель с открытыми весами с момента GPT-2, вступив в область, возглавляемую DeepSeek и Qwen от Alibaba.
Анкит (@GuptaAnkitV) разбирает эти топовые OSS модели, включая то, что отличает их друг от друга под капотом: смесь экспертов, обучение на длинном контексте и методы постобучения, которые формируют рассуждения и выравнивание — и как разные дизайнерские решения приводят к удивительно схожей производительности.
00:00 – Запуск OpenAI OSS
01:00 – Сравнение архитектур Open Source LLM
01:46 – Обзор GPT OSS
02:37 – Под капотом GPT OSS
03:25 – Архитектура Qwen-3
04:17 – Обучение Qwen-3
05:12 – Постобучение Qwen-3
06:08 – Рассуждения и инновации RL Qwen-3
06:52 – Обзор DeepSeek V3
07:40 – Обновления DeepSeek V3.1
08:39 – Механизм внимания (MLA)
09:39 – Сравнение размеров моделей
10:35 – Стратегии длинного контекста
11:25 – Рефлексии по методам
12:00 – Выводы
2,63K
Топ
Рейтинг
Избранное