Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hôm nay tôi đọc được một bài báo năm 2025 có tiêu đề "Dự đoán xu hướng giá ngắn hạn của tiền điện tử bằng dữ liệu sổ lệnh", tác giả còn có tài khoản X @Kev, mọi người có thể xem qua. Phát hiện cốt lõi của bài báo: việc tiền xử lý dữ liệu tần số cao quan trọng hơn độ phức tạp của mô hình, tức là sau khi làm sạch dữ liệu, thiết kế đặc trưng thủ công + mô hình đơn giản, hiệu suất không thua kém mô hình sâu tự động (mạng nơ-ron tự động học đặc trưng), thậm chí còn tốt hơn. Phát hiện này đã trở thành sự đồng thuận chính trong lĩnh vực tài chính truyền thống, nhưng nghiên cứu về vấn đề này trong thị trường tiền điện tử thì không nhiều.
Dữ liệu nghiên cứu của tác giả là dữ liệu sổ lệnh L2 gốc từ API công khai của Bybit vào ngày 30 tháng 1 năm 2025. Mỗi 100ms có một bức ảnh chụp, mỗi bức ảnh chụp có tối đa 200 lớp mua bán. Thí nghiệm chính sử dụng 100.000 bản ghi (khoảng 166 phút), thí nghiệm chuỗi mở rộng đến 1 triệu bản ghi (khoảng 28 giờ). Dữ liệu có thể truy cập miễn phí, vì vậy tính khả thi của bài báo khá tốt.
Phương pháp nghiên cứu là chia dữ liệu thành ba nhóm không lọc, lọc SG, lọc Kalman, sau đó lần lượt đưa vào 6 mô hình, trong hai nhãn phân loại (tăng/giảm) và ba nhãn phân loại (tăng/bằng/giảm), lần lượt dự đoán hướng giá sau 100ms / 500ms / 1s. Tổng cộng có 3 (tiền xử lý dữ liệu) × 6 (6 nhóm mô hình) × 2 (kết quả dự đoán là phân loại hai hay ba) × 3 (ba khoảng thời gian dự đoán) = 108 nhóm thí nghiệm.
Mô hình được phân nhóm theo độ phức tạp như sau:
- Mô hình đơn giản (hồi quy logistic và XGBoost): Thiết kế đặc trưng thủ công (ví dụ: chênh lệch khối lượng mua bán, mất cân bằng cung cầu), làm đầu vào cho mô hình. Tốc độ nhanh nhất, và chúng ta có thể hiểu mô hình làm thế nào để đưa ra quyết định dựa trên các đặc trưng, biết lý do và cách thức.
- Mô hình hỗn hợp (CNN+CatBoost và CNN+XGBoost): Không còn thiết kế đặc trưng thủ công nữa, mà để mạng nơ-ron tự học các đặc trưng của dữ liệu, sau đó đưa những đặc trưng này vào cây quyết định. Ưu điểm là có thể phát hiện ra những tổ hợp đặc trưng mà con người không nghĩ tới, nhược điểm là những đặc trưng này khó giải thích, biết lý do nhưng không biết cách thức.
- Mô hình sâu (DeepLOB và phiên bản đơn giản của nó): Mạng nơ-ron hoàn toàn từ đầu đến cuối, từ việc trích xuất đặc trưng (và khác với trước đây là lần này có thể trích xuất thông tin chuỗi làm đặc trưng) đến quyết định cuối cùng đều hoàn toàn tự động, biết lý do nhưng không biết cách thức.
Chỉ số đánh giá là tỷ lệ dự đoán chính xác (về mặt kỹ thuật gọi là điểm F1, đồng thời đo lường "khi bạn nói tăng thì có bao nhiêu lần thực sự tăng" và "khi thực sự tăng thì bạn đã nắm bắt được bao nhiêu lần", từ 0 đến 1, càng cao càng tốt). Đồng thời ghi lại thời gian huấn luyện. Tập huấn luyện 80%, tập kiểm tra 20%, không thực hiện kiểm tra chéo, vì dữ liệu theo thời gian không phù hợp với việc xáo trộn ngẫu nhiên.
Quan điểm cốt lõi 1: Chất lượng dữ liệu quan trọng hơn việc chọn mô hình
Lấy ví dụ dự đoán sổ lệnh 40 lớp trong 500ms với ba phân loại:
- Cùng một XGBoost, khi đầu vào dữ liệu gốc thì tỷ lệ dự đoán chính xác là 0.45, sau khi làm mịn SG tăng lên 0.54, tăng khoảng 21%.
- Thay mô hình thành DeepLOB phức tạp hơn, trên dữ liệu gốc lại thấp hơn (0.43). Ngay cả khi DeepLOB cũng đã làm mịn SG (0.52), vẫn không bằng XGBoost+SG (0.54).
Tác động của việc nâng cao chất lượng dữ liệu vượt xa tác động của việc nâng cao độ phức tạp của mô hình.
Tại sao lọc SG lại hiệu quả như vậy?
Dữ liệu sổ lệnh gốc rất ồn ào, giá cả và khối lượng đặt hàng dao động mạnh mẽ ở mức mili giây, trong ngành thường cho rằng đây là do các nhà tạo lập thị trường điều chỉnh báo giá nhanh chóng gây ra "nhấp nháy". Lọc SG là sử dụng một cửa sổ nhỏ trượt trên dữ liệu, mỗi khi đến một vị trí sẽ khớp một đường cong mịn trong cửa sổ, lấy giá trị của điểm giữa đường cong làm kết quả mịn. Khác với trung bình di động đơn giản, nó không làm mất đi các điểm chuyển tiếp thực sự của xu hướng - vì nó sử dụng đường cong để khớp với hình dạng dữ liệu, thay vì lấy trung bình một cách thô bạo. Một dòng mã trong scipy có thể gọi, cửa sổ 21, đa thức bậc ba là tham số ổn định nhất trong bài báo, có thể làm điểm khởi đầu cho nghiên cứu của mọi người.
2. Cửa sổ quyết định hạn chế độ phức tạp của mô hình
Cần phân biệt hai khái niệm:
- Thời gian huấn luyện là thời gian huấn luyện mô hình ngoại tuyến (một lần)
- Thời gian suy diễn là thời gian mà mô hình đưa ra dự đoán mỗi khi có một dữ liệu mới trong thực tế
Tần suất suy diễn phụ thuộc vào thiết kế chiến lược, độ dài của cửa sổ quyết định xác định giới hạn tốc độ suy diễn, giới hạn tốc độ suy diễn hạn chế độ phức tạp của mô hình.
...

Hàng đầu
Thứ hạng
Yêu thích
