Microsoft apresenta rStar2-Agent
Relatório Técnico de Raciocínio Agêntico
O rStar2-Agent impulsiona um modelo 14B pré-treinado para o estado da arte em apenas 510 etapas de RL em uma semana, alcançando pontuações médias de pass@1 de 80,6% no AIME24 e 69,8% no AIME25, superando o DeepSeek-R1 (671B) com respostas significativamente mais curtas