El fin de semana pasado publiqué que Claude Code creó un estudio completo de ciencia política empírica en una hora. Mucha gente preguntó: ¿pero qué tan preciso fue el estudio? La respuesta: bastante precisa, con algunos errores interesantes y limitaciones importantes. Para obtener la respuesta, Graham Straus amablemente se ofreció a hacer una auditoría independiente y manual—recopilando los mismos datos y ampliando el artículo como hizo Claude, pero sin usar ninguna IA. Esto es lo que descubrió: Claude replicó exactamente el artículo original, codificó correctamente 29 de 30 condados de California en cuanto al momento del tratamiento y recopiló datos electorales que correlacionaban >,999 con la recogida manual. Los tres principales errores que encontró Graham—codificar mal el año de tratamiento de un condado, omitir la recopilación de datos de varias contiendas potencialmente relevantes en estados siempre tratados y no utilizar elecciones no presidenciales para calcular la participación—son similares a los tipos de errores que un humano podría cometer en una primera vez al escribir este artículo, y tuvieron solo pequeños efectos en las estimaciones posteriores. Por otro lado, cuando Claude intentó crear nuevos análisis que no fueran extensiones directas del artículo original, lo hizo peor. No hubo alucinaciones ni errores locos, en sí, pero se desvió del prompt y produjo resultados que encontramos mal concebidos. Mi lectura: –La IA hoy en día ya es una forma extremadamente poderosa de actualizar y ampliar rápidamente artículos empíricos simples y bien contenidos. –Para realizar bien investigación empírica en ciencias sociales, necesita absolutamente orientación y supervisión de expertos humanos. La próxima semana compartiremos reflexiones más amplias sobre este trabajo, lo que aprendimos al hacerlo y hacia dónde vamos a partir de aquí en mi blog. Gracias a las muchas, muchísimas personas que se pusieron en contacto, hicieron preguntas y ofrecieron su opinión sobre este proyecto.
Andy Hall
Andy Hall4 ene, 08:01
Aquí tienes la prueba de que Claude Code puede escribir un artículo empírico entero de ciencia política. Para validar mi afirmación de que los agentes de IA vienen a por la ciencia política "como un tren de mercancías", hoy pedí a Claude Code que replicara y ampliara completamente un antiguo artículo mío que estimaba el efecto del voto universal por correo en la participación y el resultado electoral... Básicamente en un solo plano. Tras un cuidadoso estímulo, Claude Code: (1) Descargué el repositorio del artículo antiguo y replicamos los resultados anteriores, traduciendo nuestro antiguo código de Stata a Python (2) Rastreó la web para obtener datos oficiales electorales y censales actualizados (3) Realizó nuevos análisis que extendieron los resultados hasta 2024 (4) Crear nuevas tablas y figuras (5) Realizó una revisión literaria (6) Escribió un artículo completamente nuevo (7) Empujé todo a un nuevo repositorio de github Todo el proceso duró aproximadamente una hora. Esto supone un cambio de paradigma increíble en la forma en que se realiza el trabajo empírico. También valida el punto que varias personas, incluido @BrendanNyhan hicieron ayer---va a ser especialmente fácil escalar la investigación observacional con IA. Gracias a @alexolegimas, @arthur_spirling y a muchos otros que me dieron su opinión. .
Un artículo completo está disponible aquí: ¡Es interesante combinarlo con escritos recientes de @joshgans @alexolegimas @deanwball y otros!
248