Microsoft prezintă rStar2-Agent Raport tehnic de raționament agentic rStar2-Agent stimulează un model 14B pre-antrenat la stadiul de ultimă generație în doar 510 pași RL într-o săptămână, obținând scoruri medii pass@1 de 80,6% pe AIME24 și 69,8% pe AIME25, depășind DeepSeek-R1 (671B) cu răspunsuri semnificativ mai scurte
37,88K