A Microsoft apresenta o rStar2-Agent Relatório Técnico de Raciocínio Agente O rStar2-Agent impulsiona um modelo pré-treinado de 14B para o estado da arte em apenas 510 passos de RL dentro de uma semana, alcançando uma média de 80,6% de pass@1 no AIME24 e 69,8% no AIME25, superando o DeepSeek-R1 (671B) com respostas significativamente mais curtas.
37,86K