热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
上周末我发布了Claude Code在一个小时内创建了一个完整的实证政治学研究的消息。很多人问:这个研究的准确性如何?
答案是:相当准确,虽然有一些有趣的错误和重要的局限性。
为了得到答案,Graham Straus好心地提供了进行独立手动审计的服务——收集相同的数据,并像Claude那样扩展论文,但不使用任何AI。他发现了以下内容:
Claude完全复制了原始论文,正确编码了29/30个加州县的处理时间,并收集的选举数据与手动收集的数据相关性超过0.999。
Graham发现的三个主要错误——错误编码一个县的处理年份,遗漏了对几个在始终处理州中可能相关的竞选的数据显示,以及没有使用非总统选举来计算投票率——类似于人类在第一次撰写这篇论文时可能犯的错误,并且对后续估计的影响很小。
另一方面,当Claude试图创建一些不是原始论文简单扩展的新分析时,效果就差了。没有幻觉或疯狂的错误,但它偏离了提示,产生了我们认为构思不佳的结果。
我的看法:
–今天的AI已经是快速更新和扩展良好封闭、简单实证论文的极其强大的方式。
–要做好实证社会科学研究,绝对需要人类专家的指导和监督。
下周我将在我的博客上分享关于这项工作的更广泛的想法,我们通过这项工作学到了什么,以及我们接下来要去哪里。感谢许多与我联系、提出问题并对这个项目提供反馈的人。


1月4日 08:01
这是证明Claude Code可以写一整篇实证政治学论文的证据。
为了验证我关于AI代理将像“货运列车”一样袭来政治学的说法,今天我让Claude Code完全复制并扩展了我以前的一篇论文,该论文估计了普遍邮寄投票对投票率和选举结果的影响……基本上是一气呵成。
经过仔细的提示,Claude Code:
(1) 下载了旧论文的代码库并复制了过去的结果,将我们旧的Stata代码翻译成Python
(2) 爬取网络以获取更新的官方选举数据和人口普查数据
(3) 进行了新的分析,扩展结果到2024年
(4) 创建了新的表格和图形
(5) 进行了文献综述
(6) 写了一篇全新的论文
(7) 将整个内容推送到一个新的github代码库
整个过程大约花了一个小时。
这在实证研究的方式上是一个疯狂的范式转变。
这也验证了包括@BrendanNyhan在内的几个人昨天提出的观点——使用AI进行观察性研究将特别容易扩展。
感谢@alexolegimas、@arthur_spirling和许多给予我反馈的人。

完整的文章可以在这里找到:
与 @joshgans、@alexolegimas、@deanwball 及其他人的近期写作结合起来很有趣!
254
热门
排行
收藏