重磅預印本剛剛發布! 我們比較了人類和大型語言模型(LLMs)在七個認識論階段形成判斷的方式。 我們突出了七個斷層線,即人類和LLMs根本分歧的點: 基礎斷層:人類的判斷基於感知、具身和社會經驗,而LLMs僅從文本開始,間接地從符號重建意義。 解析斷層:人類通過整合的感知和概念過程解析情境;LLMs則進行機械的標記化,產生結構上方便但語義上薄弱的表示。 經驗斷層:人類依賴情節記憶、直觀的物理學和心理學以及學習的概念;LLMs僅依賴於嵌入中編碼的統計關聯。 動機斷層:人類的判斷受到情感、目標、價值觀和進化塑造的動機的指導;LLMs沒有內在的偏好、目標或情感意義。 因果斷層:人類使用因果模型、反事實和原則性評估進行推理;LLMs整合文本上下文而不構建因果解釋,而是依賴於表面相關性。 元認知斷層:人類監控不確定性、檢測錯誤並能夠暫停判斷;LLMs缺乏元認知,必須始終產生輸出,這使得幻覺在結構上無法避免。 價值斷層:人類的判斷反映身份、道德和現實世界的利害關係;LLM的“判斷”是沒有內在評價或問責的概率下一個標記預測。 儘管存在這些斷層,人類系統性地過度相信LLM的輸出,因為流利和自信的語言產生了可信度偏見。 我們認為這創造了一種結構性條件,稱為Epistemia: 語言的可信度取代了認識評估,產生了知道的感覺而實際上並不知道。 為了解決Epistemia,我們提出了三種互補策略:認識評估、認識治理和認識素養。 完整論文在第一條回覆中。 與@Walter4C和@matjazperc聯合發表