🏎️ gemma-webgpu: một Gemma 1B không phụ thuộc, nhanh như chớp chạy hoàn toàn trong trình duyệt của bạn. Toàn bộ vibe được lập trình từ điện thoại di động của tôi. 🔥 136.8 tok/s trên M4 Mac (nhanh hơn 3.3 lần so với transformers.js) 📱 101 tok/s trên iPhone 17 (270M), 34 tok/s (1B) Những gì chúng tôi xây dựng từ đầu: • 18 shader tính toán WGSL viết tay với các phép toán hợp nhất (fusedNormAdd tiết kiệm 36 lần dispatch GPU cho mỗi lần truyền) • Giải mã Q8_0 trực tiếp trên GPU — chất lượng cao hơn q4 VÀ nhanh hơn • Tải trọng yêu cầu theo dải streaming tải trọng theo từng lớp (~44MB mỗi khối), tải lên GPU, giải phóng bộ nhớ JS ngay lập tức. Đỉnh heap: ~50MB ngay cả với mô hình 1GB • Mẹo streaming đó là điều khiến 1B chạy trên iPhone. nó không bao giờ giữ toàn bộ mô hình trong RAM 12KB nén gzipped. Không phụ thuộc. npm install gemma-webgpu