Acabo de publicar un cuaderno de Jupyter Notebook conciso y paso a paso que muestra cómo crear un LLM personalizado para @crewAIInc que llama a la API de mensajes de @AnthropicAI e implementa el almacenamiento en caché de solicitudes. Bueno, ¿qué es el almacenamiento en caché rápido y cuándo debe usarlo en su equipo? Es una forma de almacenar en caché la parte larga y repetida de su mensaje (generalmente el contexto del sistema) entre llamadas a la API. lo envía una vez, luego las llamadas posteriores lo reutilizan; reducir el costo de entrada en ~ 90% y acelerar el tiempo hasta el primer token en ~ 85% para indicaciones largas, siempre que el contenido del sistema + modelo + encabezados permanezcan iguales y esté dentro de TTL (5 millones predeterminados, 1 hora beta). Esto funciona muy bien para tripulaciones parlanchinas de varios turnos. También es útil cada vez que su equipo reutiliza un contexto de sistema largo y estable en todas las tareas (piense: manual, especificaciones, resumen de la base de código). Si su sistema / contexto cambia cada llamada, el almacenamiento en caché no ayudará mucho. el libro de cocina usa "Frankenstein" del Proyecto Gutenberg para demostrar el almacenamiento en caché con un contexto real y largo. diagrama a continuación: primero ejecute escrituras en caché; las ejecuciones posteriores leen de la caché cuando el contenido del sistema, el modelo y los encabezados coinciden con el TTL. repo + notebook en comentarios.
886