Przejdź do treści

Throughput (przepustowość)

Definicja

Throughput to „ile zapytań system potrafi obsłużyć” w danym czasie (np. na minutę), przy akceptowalnym czasie odpowiedzi.

Co to w zasadzie jest?

Latency mówi „jak szybko dostajesz odpowiedź”. Throughput mówi „ile osób naraz może korzystać”. W AI przepustowość zależy m.in. od:

  • mocy obliczeń,
  • długości promptów,
  • liczby kroków narzędzi,
  • cache,
  • limitów zapytań.

Praktyczne zastosowania (konkretne scenariusze)

Scenariusz 1: Wydarzenie online

  • Cel: nagle 500 osób pyta — throughput decyduje, czy system „siądzie”.
  • Wejście: liczba żądań i zasoby systemu.
  • Kroki: zmierz przepustowość -> skaluj zasoby -> kontroluj kolejkę.
  • Rezultat: więcej obsłużonych zadań w tym samym czasie.
  • Zabezpieczenie: limity, kolejki i alerty.

Scenariusz 2: Helpdesk

  • Cel: w godzinach szczytu throughput musi być wyższy.
  • Wejście: liczba żądań i zasoby systemu.
  • Kroki: zmierz przepustowość -> skaluj zasoby -> kontroluj kolejkę.
  • Rezultat: więcej obsłużonych zadań w tym samym czasie.
  • Zabezpieczenie: limity, kolejki i alerty.

Scenariusz 3: RAG

  • Cel: lepsza konfiguracja (top-k, cache) zwiększa throughput.
  • Wejście: liczba żądań i zasoby systemu.
  • Kroki: zmierz przepustowość -> skaluj zasoby -> kontroluj kolejkę.
  • Rezultat: więcej obsłużonych zadań w tym samym czasie.
  • Zabezpieczenie: limity, kolejki i alerty.

Ryzyka i jak je ograniczać

Ryzyko 1: Spadek jakości przy przeciążeniu

  • Ryzyko: spadek jakości przy przeciążeniu.
  • Jak ograniczać: priorytety, kolejki, limity, degradacja kontrolowana (np. mniej kontekstu).

Ryzyko 2: Koszty rosną niekontrolowanie

  • Ryzyko: koszty rosną niekontrolowanie.
  • Jak ograniczać: budżety, rate limiting, monitoring.

Ryzyko 3: Błędy w pętlach agentów zjadają przepustowość

  • Ryzyko: błędy w pętlach agentów zjadają przepustowość.
  • Jak ograniczać: limity kroków i timeouts.

Mapa powiązań

  • Latency ↔ throughput — zwykle poprawa jednego wpływa na drugie.
  • Rate limiting → kontrola obciążenia.
  • Caching → zwiększa throughput.
  • LLMOps → operacyjne zarządzanie skalą.
  • Mini-przepływ: Wielu użytkowników → kolejka → obsługa → metryki

Diagram

flowchart LR
    A[Wielu użytkowników]
    B[Kolejka]
    C[System]
    D[Obsłużone zapytania]
    E[Metryki]
    A --> B --> C --> D --> E

Diagram pokazuje, że przepustowość dotyczy liczby zapytań, które system może obsłużyć w czasie.