Microsoft presenteert rStar2-Agent
Technisch rapport over agentisch redeneren
rStar2-Agent verhoogt een voorgetraind 14B-model naar state of the art in slechts 510 RL-stappen binnen een week, met gemiddelde pass@1-scores van 80,6% op AIME24 en 69,8% op AIME25, en overtreft DeepSeek-R1 (671B) met aanzienlijk kortere antwoorden.