A OpenAI lançou recentemente seu primeiro modelo de pesos abertos desde o GPT-2, entrando em um campo liderado pela DeepSeek e Qwen do Alibaba. Ankit (@GuptaAnkitV) detalha esses principais modelos de OSS, incluindo o que os diferencia sob o capô: mistura de especialistas, treinamento de contexto longo e técnicas de pós-treinamento que moldam o raciocínio e o alinhamento - e como diferentes escolhas de design levam a um desempenho surpreendentemente semelhante. 00:00 - Lançamento do OpenAI OSS 01:00 - Comparando arquiteturas LLM de código aberto 01:46 - Visão geral do GPT OSS 02:37 - Sob o capô do GPT OSS 03:25 - Arquitetura Qwen-3 04:17 - Treinamento Qwen-3 05:12 - Pós-treinamento Qwen-3 06:08 - Qwen-3 Raciocínio e Inovações RL 06:52 - Visão geral do DeepSeek V3 07:40 - Atualizações do DeepSeek V3.1 08:39 - Mecanismo de Atenção (MLA) 09:39 - Comparando tamanhos de modelo 10:35 - Estratégias de Contexto Longo 11:25 – Reflexões sobre Métodos 12:00 – Takeaways
2,56K