Các LLM mã nguồn mở hàng đầu có một số khác biệt thú vị về kiến trúc và phương pháp đào tạo.
Tôi đã đọc tất cả các tài liệu một cách sâu sắc để phân tích chúng trong video này (và là lần đầu tiên của tôi trên YouTube của YC 😅)
Hãy xem và cho tôi biết bạn nghĩ gì!
OpenAI gần đây đã phát hành mô hình open-weights đầu tiên của mình kể từ GPT-2, gia nhập vào một lĩnh vực do DeepSeek và Qwen của Alibaba dẫn đầu.
Ankit (@GuptaAnkitV) phân tích các mô hình OSS hàng đầu này, bao gồm những gì làm cho chúng khác biệt bên trong: hỗn hợp chuyên gia, đào tạo ngữ cảnh dài, và các kỹ thuật sau đào tạo định hình lý luận và sự phù hợp—và cách mà các lựa chọn thiết kế khác nhau dẫn đến hiệu suất tương tự một cách bất ngờ.
00:00 – Ra mắt OSS của OpenAI
01:00 – So sánh Kiến trúc LLM Mã nguồn Mở
01:46 – Tổng quan về GPT OSS
02:37 – Bên trong GPT OSS
03:25 – Kiến trúc Qwen-3
04:17 – Đào tạo Qwen-3
05:12 – Sau đào tạo Qwen-3
06:08 – Lý luận & Đổi mới RL của Qwen-3
06:52 – Tổng quan về DeepSeek V3
07:40 – Cập nhật DeepSeek V3.1
08:39 – Cơ chế Chú ý (MLA)
09:39 – So sánh Kích thước Mô hình
10:35 – Chiến lược Ngữ cảnh Dài
11:25 – Suy ngẫm về Các Phương pháp
12:00 – Những điểm rút ra