A OpenAI lançou recentemente seu primeiro modelo de pesos abertos desde o GPT-2, entrando em um campo liderado pela DeepSeek e pelo Qwen da Alibaba. Ankit (@GuptaAnkitV) analisa esses principais modelos OSS, incluindo o que os diferencia internamente: mistura de especialistas, treinamento de longo contexto e técnicas de pós-treinamento que moldam o raciocínio e o alinhamento—e como diferentes escolhas de design levam a desempenhos surpreendentemente semelhantes. 00:00 – Lançamento do OSS da OpenAI 01:00 – Comparando Arquiteturas de LLM de Código Aberto 01:46 – Visão Geral do GPT OSS 02:37 – Por Dentro do GPT OSS 03:25 – Arquitetura do Qwen-3 04:17 – Treinamento do Qwen-3 05:12 – Pós-Treinamento do Qwen-3 06:08 – Raciocínio e Inovações em RL do Qwen-3 06:52 – Visão Geral do DeepSeek V3 07:40 – Atualizações do DeepSeek V3.1 08:39 – Mecanismo de Atenção (MLA) 09:39 – Comparando Tamanhos de Modelos 10:35 – Estratégias de Longo Contexto 11:25 – Reflexões sobre Métodos 12:00 – Conclusões
2,53K