热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我刚刚发布了一个简洁的逐步 Jupyter Notebook,展示了如何为 @crewAIInc 构建一个自定义 LLM,该 LLM 调用 @AnthropicAI 的 Messages API 并实现提示缓存。
那么,什么是提示缓存,何时在你的团队中使用它?
这是一种在 API 调用之间缓存提示的长重复部分(通常是系统上下文)的方法。你发送一次,然后后续调用重用它;将输入成本降低约 90%,并将首次令牌的时间缩短约 85%,前提是系统内容 + 模型 + 头部保持不变,并且你在 TTL 范围内(默认 5 分钟,测试版 1 小时)。
这对于多轮对话的团队非常有效。任何时候你的团队在任务之间重用长且稳定的系统上下文时(想想:手册、规范、代码库摘要),也很有用。如果你的系统/上下文在每次调用时都在变化,缓存就不会有太大帮助。
这本食谱使用来自古腾堡计划的“弗兰肯斯坦”来演示如何使用真实的长上下文进行缓存。
下面的图示:第一次运行写入缓存;后续运行在系统内容、模型和头部在 TTL 范围内匹配时从缓存读取。
代码库 + Notebook 在评论中。

890
热门
排行
收藏