Har brukt Claude Code (opus 4.5) av og på i tre dager for å prøve å jobbe meg gjennom et klassisk statistikkeksperiment Den kommer ofte opp med hacky ideer, kjører simuleringer med subtile feil, eller velger rare degenererte hyperparametere for å belønne hack Når den kjører et eksperiment, har den også en veldig dårlig bullshit-detektor og gir meg resultater som ikke består lukttesten Ganske overraskende med tanke på mine erfaringer med Claude på andre områder Jeg har gjort fremskritt med å forbedre selen, men noe av dette skyldes bare at modellen virker dårlig på eksperimentell statistikk utenfor utvalg