Julkaisin juuri ytimekkään, vaiheittaisen Jupyter Notebookin, joka näyttää, kuinka rakentaa mukautettu LLM @crewAIInc, joka kutsuu @AnthropicAI:n Viestit-ohjelmointirajapintaa ja toteuttaa nopean välimuistin. No, mitä on nopea välimuisti ja milloin sinun pitäisi käyttää sitä miehistössäsi? Se on tapa tallentaa kehotteen pitkä, toistuva osa (yleensä järjestelmäkonteksti) välimuistiin API-kutsujen välillä. lähetät sen kerran, sitten myöhemmät puhelut käyttävät sitä uudelleen; Vähennä syöttökustannuksia ~90 % ja nopeuta ensimmäiseen merkkiin kuluvaa aikaa ~85 % pitkille kehotteille, kunhan järjestelmän sisältö + malli + otsikot pysyvät samoina ja olet TTL:n sisällä (oletus 5 m, 1 tunnin beta). Tämä toimii erinomaisesti puheliaille, monikierrosille miehistöille. Hyödyllinen myös aina, kun miehistösi käyttää uudelleen pitkää, vakaata järjestelmäkontekstia tehtävissä (ajattele: käsikirja, spesifikaatio, koodikannan yhteenveto). Jos järjestelmäsi/kontekstisi muuttuu joka puhelussa, välimuisti ei auta paljon. keittokirjassa käytetään Project Gutenbergin "Frankensteinia" havainnollistamaan välimuistia todellisessa, pitkässä kontekstissa. alla oleva kaavio: Ensimmäinen suoritus kirjoittaa välimuistiin; myöhemmät ajot luetaan välimuistista, kun järjestelmän sisältö, malli ja otsikot vastaavat TTL:ää. Repo + muistikirja kommenteissa.
921