Microsoft presenterar rStar2-Agent Agentic Reasoning Teknisk rapport rStar2-Agent boostar en förtränad 14B-modell till toppmodern i endast 510 RL-steg inom en vecka, och uppnår genomsnittliga pass@1 poäng på 80,6 % på AIME24 och 69,8 % på AIME25, vilket överträffar DeepSeek-R1 (671B) med betydligt kortare svar
37,88K