Microsoft představuje rStar2-Agent Agentické Uvažování Technická Zpráva rStar2-Agent vylepšuje předem natrénovaný model 14B na nejmodernější úroveň v pouhých 510 krocích RL během jednoho týdne, přičemž dosahuje průměrného skóre pass@1 80,6 % na AIME24 a 69,8 % na AIME25, čímž překonává DeepSeek-R1 (671B) s výrazně kratšími odpověďmi
24K