一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我刚刚发布了一个简洁的逐步 Jupyter Notebook，展示了如何为 @crewAIInc 构建一个自定义 LLM，该 LLM 调用 @AnthropicAI 的 Messages API 并实现提示缓存。那么，什么是提示缓存，何时在你的团队中使用它？这是一种在 API 调用之间缓存提示的长重复部分（通常是系统上下文）的方法。你发送一次，然后后续调用重用它；将输入成本降低约 90%，并将首次令牌的时间缩短约 85%，前提是系统内容 + 模型 + 头部保持不变，并且你在 TTL 范围内（默认 5 分钟，测试版 1 小时）。这对于多轮对话的团队非常有效。任何时候你的团队在任务之间重用长且稳定的系统上下文时（想想：手册、规范、代码库摘要），也很有用。如果你的系统/上下文在每次调用时都在变化，缓存就不会有太大帮助。这本食谱使用来自古腾堡计划的“弗兰肯斯坦”来演示如何使用真实的长上下文进行缓存。下面的图示：第一次运行写入缓存；后续运行在系统内容、模型和头部在 TTL 范围内匹配时从缓存读取。代码库 + Notebook 在评论中。

890