Ich habe gerade ein prägnantes, schrittweises Jupyter-Notebook veröffentlicht, das zeigt, wie man ein benutzerdefiniertes LLM für @crewAIInc erstellt, das die Messages API von @AnthropicAI aufruft und Prompt-Caching implementiert. Was ist also Prompt-Caching und wann solltest du es in deinem Team verwenden? Es ist eine Möglichkeit, den langen, wiederholten Teil deines Prompts (normalerweise Systemkontext) zwischen API-Aufrufen zu cachen. Du sendest es einmal, dann verwenden nachfolgende Aufrufe es wieder; das senkt die Eingabekosten um ~90% und beschleunigt die Zeit bis zum ersten Token um ~85% für lange Prompts, solange der Systeminhalt + Modell + Header gleich bleiben und du innerhalb der TTL (5 Minuten Standard, 1 Stunde Beta) bist. Das funktioniert großartig für gesprächige, mehrteilige Teams. Auch nützlich, wenn dein Team einen langen, stabilen Systemkontext über Aufgaben hinweg wiederverwendet (denk an: Handbuch, Spezifikation, Zusammenfassung des Codebases). Wenn sich dein System/Kontext bei jedem Aufruf ändert, wird Caching nicht viel helfen. Das Kochbuch verwendet "Frankenstein" von Project Gutenberg, um das Caching mit echtem, langem Kontext zu demonstrieren. Diagramm unten: Der erste Lauf schreibt in den Cache; nachfolgende Läufe lesen aus dem Cache, wenn Systeminhalt, Modell und Header innerhalb der TTL übereinstimmen. Repo + Notebook in den Kommentaren.
887