跳转至主要内容
行情
扫链
追踪
信号
跟单
兑换
资产
邀请计划
更多
产品
DeFi
市场
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
DEX 功能
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
返回
自动翻译代币名称
自动翻译 X 内容
悬停显示代币卡片
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-1.21%
USELESS
-8.96%
IKUN
-15.84%
gib
-4.34%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-6.03%
ALON
-14.85%
LAUNCHCOIN
-16.69%
GOONC
-9.43%
KLED
-3.96%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-2.12%
Boopa
-10.45%
PORK
0.00%
主页
METR
一家 AI 研究非营利组织,致力于推进对 AI 系统进行实证测试的科学研究,以评估可能对社会造成灾难性伤害的能力。
查看原文
METR
2月5日 06:03
我们估计,GPT-5.2在`高`(而不是`超高`)推理努力下,50%时间范围约为6.6小时(95%置信区间为3小时20分钟到17小时30分钟),在我们扩展的软件任务套件中。这是我们迄今为止报告的时间范围测量的最高估计。
35
METR
2026年1月30日
我们正在更新对软件任务模型时间范围的测量方式(TH 1.0→1.1)。更新的方法论纳入了更多来自HCAST的任务,将我们的总数从170扩展到228。这产生了更精确的估计,尤其是在较长的时间范围内。
20
METR
2025年12月20日
我们估计,在我们的任务中,Claude Opus 4.5 的 50% 时间范围大约为 4 小时 49 分钟(95% 置信区间为 1 小时 49 分钟到 20 小时 25 分钟)。虽然我们仍在对其他最近的模型进行评估,但这是我们迄今为止发布的最高时间范围。
658
热门
排行
收藏