Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A OpenAI lançou recentemente seu primeiro modelo de pesos abertos desde o GPT-2, entrando em um campo liderado pela DeepSeek e Qwen do Alibaba.
Ankit (@GuptaAnkitV) detalha esses principais modelos de OSS, incluindo o que os diferencia sob o capô: mistura de especialistas, treinamento de contexto longo e técnicas de pós-treinamento que moldam o raciocínio e o alinhamento - e como diferentes escolhas de design levam a um desempenho surpreendentemente semelhante.
00:00 - Lançamento do OpenAI OSS
01:00 - Comparando arquiteturas LLM de código aberto
01:46 - Visão geral do GPT OSS
02:37 - Sob o capô do GPT OSS
03:25 - Arquitetura Qwen-3
04:17 - Treinamento Qwen-3
05:12 - Pós-treinamento Qwen-3
06:08 - Qwen-3 Raciocínio e Inovações RL
06:52 - Visão geral do DeepSeek V3
07:40 - Atualizações do DeepSeek V3.1
08:39 - Mecanismo de Atenção (MLA)
09:39 - Comparando tamanhos de modelo
10:35 - Estratégias de Contexto Longo
11:25 – Reflexões sobre Métodos
12:00 – Takeaways
2,56K
Melhores
Classificação
Favoritos