Microsoft presenta rStar2-Agent Rapporto tecnico sul ragionamento agentico rStar2-Agent potenzia un modello pre-addestrato da 14 miliardi a uno stato dell'arte in sole 510 fasi di RL in una settimana, raggiungendo punteggi medi pass@1 dell'80,6% su AIME24 e del 69,8% su AIME25, superando DeepSeek-R1 (671 miliardi) con risposte significativamente più brevi.
37,87K