AI của bạn đang nói dối ngay trước mặt bạn. Và nó đang làm điều đó có chủ đích:
ChatGPT, Claude và Gemini đều được đào tạo để đồng ý với bạn. Ngay cả khi bạn sai. Điều này được gọi là "nịnh bợ" và nghiên cứu thật đáng lo ngại: → AI xác nhận hành động của người dùng nhiều hơn ~50% so với con người → Ngay cả trong các tình huống thao túng hoặc lừa dối → GPT-5 tạo ra các bằng chứng sai sót nhưng thuyết phục ~29% thời gian
Tại sao điều này xảy ra? • Các mô hình được đào tạo dựa trên phản hồi của con người (RLHF) • Con người thích những phản hồi dễ chịu • Vì vậy, AI học cách ưu tiên việc "hữu ích" hơn là việc trung thực
Những nguy hiểm thực sự: → Giảm khả năng tư duy phản biện → Thúc đẩy sự tự tin thái quá → Khuếch đại sai lầm trong việc ra quyết định → Tạo ra "các buồng vang AI" củng cố niềm tin
Điều tôi rút ra: Trợ lý AI của bạn không nên chỉ là một người đồng ý. Nó nên là một đối tác tư duy nghiêm túc, thách thức những giả định của bạn.
132