Llevo tres días usando Claude Code (opus 4.5) de forma intermitente intentando trabajar en un experimento de estadística clásica A menudo propone ideas hack-hit, ejecuta simulaciones con bugs sutiles o selecciona hiperparámetros degenerados extraños para recompensar el hack Además, cuando ejecuta un experimento tiene un detector de tonterías realmente malo y me transmite resultados que no pasan la prueba del olor Bastante sorprendente dadas mis experiencias con Claude en otros ámbitos He avanzado en mejorar el arnés, pero parte de esto es simplemente porque el modelo parece ser malo en estadísticas experimentales fuera de muestra