微軟推出 rStar2-Agent 代理推理技術報告 rStar2-Agent 在僅僅 510 個 RL 步驟內將一個預訓練的 14B 模型提升到最先進水平,平均在 AIME24 上的 pass@1 分數為 80.6%,在 AIME25 上為 69.8%,超越了 DeepSeek-R1(671B),且響應時間顯著更短。
37.85K