OpenAI 最近发布了自 GPT-2 以来的第一个开放权重模型,进入了由 DeepSeek 和阿里巴巴的 Qwen 领导的领域。 Ankit (@GuptaAnkitV) 分析了这些顶级开源软件模型,包括它们在底层的不同之处:专家混合、长上下文训练和塑造推理与对齐的后训练技术——以及不同的设计选择如何导致意外相似的性能。 00:00 – OpenAI OSS 发布 01:00 – 比较开源 LLM 架构 01:46 – GPT OSS 概述 02:37 – GPT OSS 的底层 03:25 – Qwen-3 架构 04:17 – Qwen-3 训练 05:12 – Qwen-3 后训练 06:08 – Qwen-3 推理与强化学习创新 06:52 – DeepSeek V3 概述 07:40 – DeepSeek V3.1 更新 08:39 – 注意机制 (MLA) 09:39 – 比较模型大小 10:35 – 长上下文策略 11:25 – 方法反思 12:00 – 关键要点
2.63K