Microsoft представляє rStar2-Agent Технічний звіт про агентичне обґрунтування rStar2-Agent підвищує попередньо навчену модель 14B до сучасного рівня всього за 510 кроків RL протягом одного тижня, досягаючи середніх показників pass@1 80,6% на AIME24 і 69,8% на AIME25, перевершуючи DeepSeek-R1 (671B) зі значно коротшими відгуками
28K