Tôi đã sử dụng mã claude (opus 4.5) trong ba ngày, thỉnh thoảng cố gắng làm một thí nghiệm thống kê cổ điển Nó thường đưa ra những ý tưởng hack-y, chạy các mô phỏng với những lỗi tinh vi, hoặc chọn các siêu tham số suy biến kỳ lạ để thưởng cho việc hack Ngoài ra, khi nó chạy một thí nghiệm, nó có một bộ phát hiện bullshit rất tệ và sẽ truyền đạt cho tôi những kết quả không qua được bài kiểm tra mùi Thật bất ngờ khi so với những trải nghiệm của tôi với claude trong các lĩnh vực khác Tôi đã tiến bộ trong việc cải thiện bộ khung nhưng một phần trong số này chỉ là mô hình dường như kém trong thống kê thí nghiệm ngoài mẫu.