Ik gebruik nu drie dagen af en toe claude code (opus 4.5) om een klassiek statistiekexperiment door te werken. Het komt vaak met hack-y ideeën, voert simulaties uit met subtiele bugs, of selecteert vreemde degeneratieve hyperparameters om hack te belonen. Ook heeft het een echt slechte bullshitdetector wanneer het een experiment uitvoert en zal het resultaten aan mij doorgeven die de geurtest niet doorstaan. Best verrassend gezien mijn ervaringen met claude in andere domeinen. Ik heb vooruitgang geboekt in het verbeteren van de harness, maar een deel hiervan is gewoon dat het model slecht lijkt te zijn in out-of-sample experimentele statistieken.