acabei de publicar um caderno Jupyter conciso, passo a passo, mostrando como construir um LLM personalizado para @crewAIInc que chama a API Messages da @AnthropicAI e implementa o cache de prompts. bem, o que é o cache de prompts e quando você deve usá-lo na sua equipe? é uma maneira de armazenar em cache a parte longa e repetida do seu prompt (geralmente o contexto do sistema) entre chamadas de API. você envia uma vez, depois as chamadas subsequentes reutilizam; reduzindo o custo de entrada em ~90% e acelerando o tempo até o primeiro token em ~85% para prompts longos, desde que o conteúdo do sistema + modelo + cabeçalhos permaneçam os mesmos e você esteja dentro do TTL (5m por padrão, 1h beta). isso funciona muito bem para equipes conversadoras e de múltiplas interações. também é útil sempre que sua equipe reutiliza um contexto de sistema longo e estável em várias tarefas (pense: manual, especificação, resumo de código). se o seu sistema/contexto mudar a cada chamada, o cache não ajudará muito. o livro de receitas usa “Frankenstein” do Project Gutenberg para demonstrar o cache com um contexto longo e real. diagrama abaixo: a primeira execução grava no cache; execuções subsequentes leem do cache quando o conteúdo do sistema, modelo e cabeçalhos correspondem dentro do TTL. repositório + caderno nos comentários.
896