跳轉至主要內容
行情
掃鏈
追蹤
信號
跟單
兌換
資產
邀請計劃
更多
產品
DeFi
市場
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
X Campaign
參與活動,贏取豐厚獎勵
獎勵中心
領取獎勵和空投
預警
語言
貨幣
DEX 功能
顏色設置
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
學院
幫助中心
返回
自動翻譯代幣名稱
自動翻譯 X 內容
懸停顯示代幣卡片
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-4.08%
USELESS
+1.66%
IKUN
-5.84%
gib
-6.21%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
+1.1%
ALON
+7.54%
LAUNCHCOIN
+1.45%
GOONC
-10.44%
KLED
+2.18%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
+1.61%
Boopa
-10.04%
PORK
0.00%
主頁
Chris
Agi 2029 - 應用於 RL、CL 和泛化 |項目經理 |投資早期初創公司 📈 E/CC 🦾🤖
查看原文
Chris
20 小時前
Anthropic 讓 16 個 AI 代理從零開始建立了一個 C 編譯器。100,000 行,能編譯 Linux 核心,花費 20,000 美元,耗時 2 週。 為了讓這個情況更具體,GCC 花了數千名工程師 37 年的時間來建立。(雖然是從 1987 年開始)但一位研究人員和 16 個 AI 代理剛剛建立了一個編譯器,通過了 99% 的 GCC 自己的折磨測試套件,能編譯 FFmpeg、Redis、PostgreSQL、QEMU 並運行 Doom。 他們說他們「(大部分)走開了。」但那個「大部分」在這裡承擔了重任。 沒有任何人寫代碼,但研究人員不斷重新設計測試,當代理互相破壞工作時建立 CI 管道,並在所有 16 個代理都卡在同一個錯誤時創建解決方案。 人類的角色並沒有消失。它從寫代碼轉變為工程環境,讓 AI 能夠寫代碼。 我不知道你怎麼能表達 AI 正在碰壁的觀點。
61
Chris
21 小時前
這個 metr bench 昨天剛推出,現在就要被摧毀了 😭😭
Chris
2月5日 07:37
METR 最新的評估顯示 GPT-5.2(高)達到了 "50% 時間範圍" 的 6.6 小時。 對於不知情的人來說,他們的方法論是通過計時人類專家完成 AI 現在能夠成功完成一半時間的任務所需的時間來衡量自主能力。 我曾與 OpenAI 談到過 "輕起飛",這進一步證明了這一點。這一軌跡就是輕起飛的定義 - 一個平滑但真實的指數加速。能力翻倍的時間已經從 212 天縮短到僅僅 128 天。 這個 6.6 小時的紀錄是使用 "高" 推理努力設置創造的,而不是更強大的 "XHigh" 設置。隨著 GPT-5.2 已經以 25% 的優勢超越 Claude 4.5 Opus(5.3 小時),"XHigh" 版本可能將時間範圍推進到 10 小時以上。這證明了 OpenAI 正在成功擴展推理計算。而這甚至還不是 5.3!
METR
2月5日 06:03
我們估計,GPT-5.2 在 `高`(而非 `極高`)推理努力下,對於我們擴展的軟體任務套件,其 50% 時間範圍約為 6.6 小時(95% 置信區間為 3 小時 20 分鐘到 17 小時 30 分鐘)。這是我們迄今為止報告的時間範圍測量的最高估計。
57
熱門
排行
收藏