Microsoft presenta rStar2-Agent Informe técnico sobre razonamiento agente rStar2-Agent mejora un modelo preentrenado de 14B a un estado del arte en solo 510 pasos de RL en una semana, logrando puntuaciones promedio pass@1 del 80.6% en AIME24 y del 69.8% en AIME25, superando a DeepSeek-R1 (671B) con respuestas significativamente más cortas.
37,86K