Przejdź do treści

Throughput (przepustowość)

Definicja

Throughput to „ile zapytań system potrafi obsłużyć” w danym czasie (np. na minutę), przy akceptowalnym czasie odpowiedzi.

Co to w zasadzie jest?

Latency mówi „jak szybko dostajesz odpowiedź”. Throughput mówi „ile osób naraz może korzystać”. W AI przepustowość zależy m.in. od:

mocy obliczeń,
długości promptów,
liczby kroków narzędzi,
cache,
limitów zapytań.

Praktyczne zastosowania (konkretne scenariusze)

Scenariusz 1: Wydarzenie online

Cel: nagle 500 osób pyta — throughput decyduje, czy system „siądzie”.
Wejście: liczba żądań i zasoby systemu.
Kroki: zmierz przepustowość -> skaluj zasoby -> kontroluj kolejkę.
Rezultat: więcej obsłużonych zadań w tym samym czasie.
Zabezpieczenie: limity, kolejki i alerty.

Scenariusz 2: Helpdesk

Cel: w godzinach szczytu throughput musi być wyższy.
Wejście: liczba żądań i zasoby systemu.
Kroki: zmierz przepustowość -> skaluj zasoby -> kontroluj kolejkę.
Rezultat: więcej obsłużonych zadań w tym samym czasie.
Zabezpieczenie: limity, kolejki i alerty.

Scenariusz 3: RAG

Cel: lepsza konfiguracja (top-k, cache) zwiększa throughput.
Wejście: liczba żądań i zasoby systemu.
Kroki: zmierz przepustowość -> skaluj zasoby -> kontroluj kolejkę.
Rezultat: więcej obsłużonych zadań w tym samym czasie.
Zabezpieczenie: limity, kolejki i alerty.

Ryzyka i jak je ograniczać

Ryzyko 1: Spadek jakości przy przeciążeniu

Ryzyko: spadek jakości przy przeciążeniu.
Jak ograniczać: priorytety, kolejki, limity, degradacja kontrolowana (np. mniej kontekstu).

Ryzyko 2: Koszty rosną niekontrolowanie

Ryzyko: koszty rosną niekontrolowanie.
Jak ograniczać: budżety, rate limiting, monitoring.

Ryzyko 3: Błędy w pętlach agentów zjadają przepustowość

Ryzyko: błędy w pętlach agentów zjadają przepustowość.
Jak ograniczać: limity kroków i timeouts.

Mapa powiązań

Latency ↔ throughput — zwykle poprawa jednego wpływa na drugie.
Rate limiting → kontrola obciążenia.
Caching → zwiększa throughput.
LLMOps → operacyjne zarządzanie skalą.
Mini-przepływ: Wielu użytkowników → kolejka → obsługa → metryki

Diagram

flowchart LR
    A[Wielu użytkowników]
    B[Kolejka]
    C[System]
    D[Obsłużone zapytania]
    E[Metryki]
    A --> B --> C --> D --> E

Diagram pokazuje, że przepustowość dotyczy liczby zapytań, które system może obsłużyć w czasie.