J'utilise le code claude (opus 4.5) depuis trois jours de manière intermittente pour essayer de travailler sur une expérience de statistiques classiques Il propose souvent des idées un peu bricolées, exécute des simulations avec des bugs subtils, ou sélectionne des hyperparamètres dégénérés étranges pour récompenser le bricolage De plus, lorsqu'il exécute une expérience, il a un très mauvais détecteur de bullshit et me transmet des résultats qui ne passent pas le test de la crédibilité C'est assez surprenant compte tenu de mes expériences avec claude dans d'autres domaines J'ai fait des progrès pour améliorer le système, mais une partie de cela est simplement que le modèle semble être mauvais en statistiques expérimentales hors échantillon.