跳转至主要内容
行情
扫链
追踪
信号
跟单
兑换
资产
邀请计划
更多
产品
DeFi
市场
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-4.88%
USELESS
-21.52%
IKUN
-20.33%
gib
-10.87%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-12.69%
ALON
-16.13%
LAUNCHCOIN
-20.07%
GOONC
-12.45%
KLED
-1.48%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-2.06%
Boopa
-15.21%
PORK
0.00%
主页
Chris
Agi 2029 - 应用于RL、CL和泛化 |项目经理 |投资早期初创企业 📈 E/CC 🦾🤖
查看原文
Chris
10 小时前
Anthropic让16个AI代理从头开始构建一个C编译器。100k行,能够编译Linux内核,花费$20k,耗时2周。 为了更好地理解,GCC花费了数千名工程师37年才构建完成。(虽然是从1987年开始的)但一位研究人员和16个AI代理刚刚构建了一个编译器,能够通过99%的GCC自身的折磨测试套件,编译FFmpeg、Redis、PostgreSQL、QEMU,并运行Doom。 他们说他们“(大部分)走开了。”但这个“主要”承担了很大的责任。 没有人类编写代码,但研究人员不断重新设计测试,构建CI管道,当代理们破坏彼此的工作时,并在所有16个代理都卡在同一个错误时创造解决方法。 人类的角色并没有消失。它从编写代码转变为工程环境,让AI编写代码。 我不知道你怎么能说明AI正在碰壁。
15
Chris
2月5日 07:37
METR 最新的评估显示,GPT-5.2(高)达到了 "50% 时间范围" 的 6.6 小时。 对于那些不知道的人,他们的方法论通过计时人类专家完成 AI 现在可以成功完成一半时间的任务所需的时间来衡量自主能力。 我与 OpenAI 讨论过 "轻起飞",这进一步证明了这一点。这一轨迹是轻起飞的定义——平稳但真实的指数加速。能力翻倍的时间从 212 天缩短到仅 128 天。 这个 6.6 小时的记录是使用 "高" 推理努力设定的,而不是更强大的 "XHigh" 设置。随着 GPT-5.2 已经以 25% 的优势击败 Claude 4.5 Opus(5.3 小时),"XHigh" 版本可能将时间范围推向 10+ 小时。这证明了 OpenAI 正在成功扩展推理计算。而这甚至还不是 5.3!
METR
2月5日 06:03
我们估计,GPT-5.2在`高`(而不是`超高`)推理努力下,50%时间范围约为6.6小时(95%置信区间为3小时20分钟到17小时30分钟),在我们扩展的软件任务套件中。这是我们迄今为止报告的时间范围测量的最高估计。
16
Chris
2月3日 15:59
祝庆祝的人们快乐的五首诗日
88
热门
排行
收藏