Ho usato claude code (opus 4.5) per tre giorni a intermittenza cercando di lavorare su un esperimento di statistica classica Spesso propone idee poco pratiche, esegue simulazioni con bug sottili o seleziona iperparametri degenerati strani per premiare l'hacking Inoltre, quando esegue un esperimento ha un rilevatore di fuffa davvero scarso e mi comunica risultati che non superano il test dell'odore È piuttosto sorprendente, date le mie esperienze con claude in altri ambiti Ho fatto progressi nel migliorare il sistema, ma parte di questo è solo che il modello sembra essere scarso nella statistica sperimentale fuori campione.