Transformer 架構本質上是一種上下文的並行處理器,但推理是一個順序的、迭代的過程。 為了解決複雜的問題,模型需要一個 "草稿板",不僅在其輸出 CoT 中,而是在其內部狀態中。這是一種可微分的方式來循環、分支和回溯,直到模型找到一個有效的解決方案。