Ny, användbar prestandafunktion: Partitionsortering Skapa en prestandagräns för att prioritera snabba LLM:er, utan någon latensförlust
Du kan ställa in 'preferred_min_throughput' och 'preferred_max_latency'. Som tidigare kan du också sätta ett kostnadstak.
67