OpenAI gần đây đã phát hành mô hình open-weights đầu tiên của mình kể từ GPT-2, gia nhập vào một lĩnh vực do DeepSeek và Qwen của Alibaba dẫn đầu. Ankit (@GuptaAnkitV) phân tích các mô hình OSS hàng đầu này, bao gồm những gì làm cho chúng khác biệt bên trong: hỗn hợp chuyên gia, đào tạo ngữ cảnh dài, và các kỹ thuật sau đào tạo định hình lý luận và sự phù hợp—và cách mà các lựa chọn thiết kế khác nhau dẫn đến hiệu suất tương tự một cách bất ngờ. 00:00 – Ra mắt OSS của OpenAI 01:00 – So sánh Kiến trúc LLM Mã nguồn Mở 01:46 – Tổng quan về GPT OSS 02:37 – Bên trong GPT OSS 03:25 – Kiến trúc Qwen-3 04:17 – Đào tạo Qwen-3 05:12 – Sau đào tạo Qwen-3 06:08 – Lý luận & Đổi mới RL của Qwen-3 06:52 – Tổng quan về DeepSeek V3 07:40 – Cập nhật DeepSeek V3.1 08:39 – Cơ chế Chú ý (MLA) 09:39 – So sánh Kích thước Mô hình 10:35 – Chiến lược Ngữ cảnh Dài 11:25 – Suy ngẫm về Các Phương pháp 12:00 – Những điểm rút ra
2,49K