Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
acabei de publicar um caderno Jupyter conciso, passo a passo, mostrando como construir um LLM personalizado para @crewAIInc que chama a API Messages da @AnthropicAI e implementa o cache de prompts.
bem, o que é o cache de prompts e quando você deve usá-lo na sua equipe?
é uma maneira de armazenar em cache a parte longa e repetida do seu prompt (geralmente o contexto do sistema) entre chamadas de API. você envia uma vez, depois as chamadas subsequentes reutilizam; reduzindo o custo de entrada em ~90% e acelerando o tempo até o primeiro token em ~85% para prompts longos, desde que o conteúdo do sistema + modelo + cabeçalhos permaneçam os mesmos e você esteja dentro do TTL (5m por padrão, 1h beta).
isso funciona muito bem para equipes conversadoras e de múltiplas interações. também é útil sempre que sua equipe reutiliza um contexto de sistema longo e estável em várias tarefas (pense: manual, especificação, resumo de código). se o seu sistema/contexto mudar a cada chamada, o cache não ajudará muito.
o livro de receitas usa “Frankenstein” do Project Gutenberg para demonstrar o cache com um contexto longo e real.
diagrama abaixo: a primeira execução grava no cache; execuções subsequentes leem do cache quando o conteúdo do sistema, modelo e cabeçalhos correspondem dentro do TTL.
repositório + caderno nos comentários.

896
Top
Classificação
Favoritos