DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

acabo de publicar un cuaderno de Jupyter conciso y paso a paso que muestra cómo construir un LLM personalizado para @crewAIInc que llama a la API de Mensajes de @AnthropicAI e implementa el almacenamiento en caché de prompts. bueno, ¿qué es el almacenamiento en caché de prompts y cuándo deberías usarlo en tu equipo? es una forma de almacenar en caché la parte larga y repetida de tu prompt (generalmente el contexto del sistema) entre llamadas a la API. lo envías una vez, luego las llamadas subsiguientes lo reutilizan; reduciendo el costo de entrada en un ~90% y acelerando el tiempo hasta el primer token en un ~85% para prompts largos, siempre que el contenido del sistema + modelo + encabezados permanezcan iguales y estés dentro del TTL (5m por defecto, 1h en beta). esto funciona muy bien para equipos conversadores y de múltiples turnos. también es útil cada vez que tu equipo reutiliza un contexto del sistema largo y estable a través de tareas (piensa: manual, especificación, resumen de código). si tu sistema/contexto cambia en cada llamada, el almacenamiento en caché no ayudará mucho. el libro de cocina utiliza “Frankenstein” de Project Gutenberg para demostrar el almacenamiento en caché con un contexto real y largo. diagrama a continuación: la primera ejecución escribe en la caché; las ejecuciones subsiguientes leen de la caché cuando el contenido del sistema, modelo y encabezados coinciden dentro del TTL. repositorio + cuaderno en los comentarios.

893

Parte superior

Clasificación

Favoritos