Throughput (przepustowość)
Definicja
Throughput to „ile zapytań system potrafi obsłużyć” w danym czasie (np. na minutę), przy akceptowalnym czasie odpowiedzi.
Co to w zasadzie jest?
Latency mówi „jak szybko dostajesz odpowiedź”. Throughput mówi „ile osób naraz może korzystać”. W AI przepustowość zależy m.in. od:
- mocy obliczeń,
- długości promptów,
- liczby kroków narzędzi,
- cache,
- limitów zapytań.
Praktyczne zastosowania (konkretne scenariusze)
Scenariusz 1: Wydarzenie online
- Cel: nagle 500 osób pyta — throughput decyduje, czy system „siądzie”.
- Wejście: liczba żądań i zasoby systemu.
- Kroki: zmierz przepustowość -> skaluj zasoby -> kontroluj kolejkę.
- Rezultat: więcej obsłużonych zadań w tym samym czasie.
- Zabezpieczenie: limity, kolejki i alerty.
Scenariusz 2: Helpdesk
- Cel: w godzinach szczytu throughput musi być wyższy.
- Wejście: liczba żądań i zasoby systemu.
- Kroki: zmierz przepustowość -> skaluj zasoby -> kontroluj kolejkę.
- Rezultat: więcej obsłużonych zadań w tym samym czasie.
- Zabezpieczenie: limity, kolejki i alerty.
Scenariusz 3: RAG
- Cel: lepsza konfiguracja (top-k, cache) zwiększa throughput.
- Wejście: liczba żądań i zasoby systemu.
- Kroki: zmierz przepustowość -> skaluj zasoby -> kontroluj kolejkę.
- Rezultat: więcej obsłużonych zadań w tym samym czasie.
- Zabezpieczenie: limity, kolejki i alerty.
Ryzyka i jak je ograniczać
Ryzyko 1: Spadek jakości przy przeciążeniu
- Ryzyko: spadek jakości przy przeciążeniu.
- Jak ograniczać: priorytety, kolejki, limity, degradacja kontrolowana (np. mniej kontekstu).
Ryzyko 2: Koszty rosną niekontrolowanie
- Ryzyko: koszty rosną niekontrolowanie.
- Jak ograniczać: budżety, rate limiting, monitoring.
Ryzyko 3: Błędy w pętlach agentów zjadają przepustowość
- Ryzyko: błędy w pętlach agentów zjadają przepustowość.
- Jak ograniczać: limity kroków i timeouts.
Mapa powiązań
- Latency ↔ throughput — zwykle poprawa jednego wpływa na drugie.
- Rate limiting → kontrola obciążenia.
- Caching → zwiększa throughput.
- LLMOps → operacyjne zarządzanie skalą.
- Mini-przepływ:
Wielu użytkowników → kolejka → obsługa → metryki
Diagram
flowchart LR
A[Wielu użytkowników]
B[Kolejka]
C[System]
D[Obsłużone zapytania]
E[Metryki]
A --> B --> C --> D --> E
Diagram pokazuje, że przepustowość dotyczy liczby zapytań, które system może obsłużyć w czasie.