微软推出 rStar2-Agent 代理推理技术报告 rStar2-Agent 在仅仅 510 个 RL 步骤内将一个预训练的 14B 模型提升到最先进水平,平均在 AIME24 上的 pass@1 分数为 80.6%,在 AIME25 上为 69.8%,超越了 DeepSeek-R1(671B),且响应时间显著更短。
23.98K