Microsoft présente rStar2-Agent
Rapport technique sur le raisonnement agentique
rStar2-Agent améliore un modèle pré-entraîné de 14 milliards de paramètres pour atteindre l'état de l'art en seulement 510 étapes d'apprentissage par renforcement en une semaine, obtenant des scores pass@1 moyens de 80,6 % sur AIME24 et 69,8 % sur AIME25, surpassant DeepSeek-R1 (671 milliards) avec des réponses significativement plus courtes.