Microsoft presenta rStar2-Agent Informe técnico de razonamiento agéntico rStar2-Agent impulsa un modelo 14B preentrenado al estado del arte en solo 510 pasos de RL en una semana, logrando puntajes de pass@1 promedio del 80,6% en AIME24 y del 69,8% en AIME25, superando a DeepSeek-R1 (671B) con respuestas significativamente más cortas