Microsoft prezentuje rStar2-Agent
Raport techniczny dotyczący rozumowania agentowego
rStar2-Agent podnosi wstępnie wytrenowany model 14B do stanu sztuki w zaledwie 510 krokach RL w ciągu jednego tygodnia, osiągając średnie wyniki pass@1 na poziomie 80,6% na AIME24 i 69,8% na AIME25, przewyższając DeepSeek-R1 (671B) z znacząco krótszymi odpowiedziami.