tất cả các LLM nên loại bỏ gradient khỏi dữ liệu huấn luyện của chúng