Я щойно опублікував стислий, покроковий блокнот Jupyter, який показує, як створити кастомний LLM для @crewAIInc, який викликає API Messages @AnthropicAI та реалізує оперативне кешування. Що ж таке оперативне кешування і коли його варто використовувати у своїй команді? Це спосіб кешувати довгу, повторювану частину вашого запиту (зазвичай системний контекст) між викликами API. ви надсилаєте його один раз, а потім наступні дзвінки використовують його повторно; Зниження вхідних витрат на ~90% і прискорення часу до першого токена на ~85% для довгих підказок, за умови, що системний контент + модель + заголовки залишаються незмінними і ви перебуваєте в межах TTL (5 млн за замовчуванням, 1 год бета). Це чудово підходить для балакучих екіпажів з кількома ходами. Це корисно щоразу, коли ваша команда повторно використовує довгий, стабільний системний контекст для виконання завдань (наприклад: довідник, специфікація, зведення кодової бази). Якщо ваша система/контекст змінюється кожного виклику, кешування не дуже допоможе. у кулінарній книзі використовується «Франкенштейн» з проекту «Гутенберг», щоб продемонструвати кешування з реальним, довгим контекстом. Діаграма нижче: перший запуск записує в кеш; подальші запуски зчитуються з кешу, коли системний контент, модель і заголовки збігаються в межах TTL. РЕПО + Блокнот у коментарях.
894