跳轉至主要內容
行情
掃鏈
追蹤
信號
跟單
兌換
資產
邀請計劃
更多
產品
DeFi
市場
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
X Campaign
參與活動,贏取豐厚獎勵
獎勵中心
領取獎勵和空投
預警
語言
貨幣
顏色設置
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
學院
幫助中心
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-5.05%
USELESS
+0.73%
IKUN
+14.79%
gib
-1.11%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-3.47%
ALON
-14.1%
LAUNCHCOIN
-0.52%
GOONC
-2.48%
KLED
+9.86%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-0.43%
Boopa
-1.64%
PORK
0.00%
主頁
Andy Hall
教授 @ 史丹佛大學 GSB,胡佛。我從事科技、政治與治理相關工作。我是 a16z 加密貨幣與 Meta 的顧問。
查看原文
Andy Hall
13 小時前
我的 LLM 委員會在我今天的代理人群寫的這篇論文中看到了幾個相當大的紅旗 🤣
2.8K
Andy Hall
1月10日 03:30
正在測試 Waymo 的高速公路進入。 我們在 280 的中間車道上,正好以 65 英里每小時的速度行駛。 人類駕駛者在我們兩側飛速超過,哈哈。
128
Andy Hall
1月10日 00:08
上週末我發文提到Claude Code在一小時內創建了一個完整的實證政治學研究。很多人問:這項研究的準確性如何? 答案是:相當準確,雖然有一些有趣的錯誤和重要的限制。 為了得到答案,Graham Straus好心地提供了進行獨立的手動審核——收集相同的數據並像Claude一樣擴展論文,但不使用任何AI。他發現了以下幾點: Claude完全複製了原始論文,正確編碼了29/30個加州縣的處理時間,並收集的選舉數據與手動收集的數據相關性超過0.999。 Graham發現的三個主要錯誤——錯誤編碼一個縣的處理年份,省略了對幾個潛在相關賽事的數據收集(這些賽事位於始終處理的州),以及未使用非總統選舉來計算投票率——類似於人類在第一次撰寫這篇論文時可能會犯的錯誤,對後續估算的影響也很小。 另一方面,當Claude試圖創建不直接擴展原始論文的新分析時,表現得更差。並沒有出現幻覺或瘋狂的錯誤,但它偏離了提示,產生了我們認為構思不佳的結果。 我的看法: –今天的AI已經是一種極其強大的方式,可以快速更新和擴展內容簡單的實證論文。 –要做好實證社會科學研究,絕對需要人類專家的指導和監督。 下週我會在我的博客上分享對這項工作的更廣泛看法,我們通過這項工作學到了什麼,以及我們接下來的方向。感謝許多與我聯繫、提出問題並對這個項目提供反饋的人。
274
熱門
排行
收藏