Transformer架构从根本上来说是一个上下文的并行处理器,但推理是一个顺序的、迭代的过程。 要解决复杂问题,模型不仅需要在其输出的CoT中有一个“草稿纸”,还需要在其内部状态中有一个。一个可微分的方式来循环、分支和回溯,直到模型找到一个有效的解决方案。