熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
OpenAI 最近發布了自 GPT-2 以來的第一個開放權重模型,進入了由 DeepSeek 和阿里巴巴的 Qwen 領導的領域。
Ankit (@GuptaAnkitV) 分析了這些頂級開源軟體模型,包括它們在底層的不同之處:專家混合、長上下文訓練和塑造推理與對齊的後訓練技術——以及不同的設計選擇如何導致意外相似的性能。
00:00 – OpenAI OSS 發布
01:00 – 比較開源 LLM 架構
01:46 – GPT OSS 概述
02:37 – GPT OSS 的底層
03:25 – Qwen-3 架構
04:17 – Qwen-3 訓練
05:12 – Qwen-3 後訓練
06:08 – Qwen-3 推理與強化學習創新
06:52 – DeepSeek V3 概述
07:40 – DeepSeek V3.1 更新
08:39 – 注意機制 (MLA)
09:39 – 比較模型大小
10:35 – 長上下文策略
11:25 – 方法反思
12:00 – 關鍵要點
2.59K
熱門
排行
收藏