NVIDIA vừa phát hành một bài báo ấn tượng về cách họ nén một mô hình từ 16-bit xuống 4-bit và vẫn duy trì được độ chính xác 99,4%, điều này gần như là không mất mát.
Đây là một bài đọc không thể bỏ qua. Liên kết bên dưới.
Bạn tôi @neuralkian vừa phát hành một khóa học về pipeline parallelism MIỄN PHÍ! Đây chính xác là những gì frontier labs sẽ thuê bạn làm ở quy mô lớn để tăng tốc độ huấn luyện và suy diễn trên các mô hình lớn. Bạn sẽ bắt đầu với một ví dụ đơn giản về tính toán chồng chéo trên một MLP nhỏ, và từ đó phát triển lên!