上週末我發文提到Claude Code在一小時內創建了一個完整的實證政治學研究。很多人問:這項研究的準確性如何? 答案是:相當準確,雖然有一些有趣的錯誤和重要的限制。 為了得到答案,Graham Straus好心地提供了進行獨立的手動審核——收集相同的數據並像Claude一樣擴展論文,但不使用任何AI。他發現了以下幾點: Claude完全複製了原始論文,正確編碼了29/30個加州縣的處理時間,並收集的選舉數據與手動收集的數據相關性超過0.999。 Graham發現的三個主要錯誤——錯誤編碼一個縣的處理年份,省略了對幾個潛在相關賽事的數據收集(這些賽事位於始終處理的州),以及未使用非總統選舉來計算投票率——類似於人類在第一次撰寫這篇論文時可能會犯的錯誤,對後續估算的影響也很小。 另一方面,當Claude試圖創建不直接擴展原始論文的新分析時,表現得更差。並沒有出現幻覺或瘋狂的錯誤,但它偏離了提示,產生了我們認為構思不佳的結果。 我的看法: –今天的AI已經是一種極其強大的方式,可以快速更新和擴展內容簡單的實證論文。 –要做好實證社會科學研究,絕對需要人類專家的指導和監督。 下週我會在我的博客上分享對這項工作的更廣泛看法,我們通過這項工作學到了什麼,以及我們接下來的方向。感謝許多與我聯繫、提出問題並對這個項目提供反饋的人。
Andy Hall
Andy Hall1月4日 08:01
這裡有證據表明 Claude Code 可以撰寫整篇實證政治學論文。 為了驗證我對 AI 代理人將 "像貨運列車一樣" 進入政治學的主張,今天我讓 Claude Code 完全複製並擴展了我以前的一篇論文,估算普遍郵寄投票對投票率和選舉結果的影響……基本上是一氣呵成。 在仔細提示後,Claude Code: (1) 下載了舊論文的資料庫並複製了過去的結果,將我們的舊 Stata 代碼轉換為 Python (2) 爬取網絡以獲取更新的官方選舉數據和人口普查數據 (3) 進行新的分析,將結果擴展到 2024 年 (4) 創建新的表格和圖形 (5) 進行文獻回顧 (6) 撰寫了一篇全新的論文 (7) 將整個內容推送到新的 github 資料庫 整個過程大約花了一個小時。 這是實證工作方式的一次瘋狂範式轉變。 這也驗證了包括 @BrendanNyhan 昨天提出的幾個人所說的觀點——使用 AI 進行觀察性研究將特別容易擴展。 感謝 @alexolegimas、@arthur_spirling 和許多給我反饋的人。
完整的報告可以在這裡找到: 將其與 @joshgans @alexolegimas @deanwball 和其他人的近期文章搭配起來非常有趣!
259