Przejdź do treści

Latency (opóźnienie odpowiedzi)

Definicja

Latency to czas od wysłania pytania do otrzymania odpowiedzi (lub pierwszego sensownego fragmentu odpowiedzi).

Co to w zasadzie jest?

Użytkownik czuje „czy to działa szybko?”. To właśnie latency. W AI opóźnienie rośnie m.in. gdy:

  • prompt jest bardzo długi,
  • retrieval pobiera dużo fragmentów,
  • agent wykonuje wiele narzędzi,
  • system jest obciążony.

Praktyczne zastosowania (konkretne scenariusze)

Scenariusz 1: Chat

  • Cel: 1–2 sekundy jest „komfortowe”, 10 sekund często frustruje.
  • Wejście: żądanie użytkownika i pomiar czasu.
  • Kroki: zmierz czas -> znajdź wąskie gardło -> uprość proces.
  • Rezultat: krótsze oczekiwanie na odpowiedź.
  • Zabezpieczenie: monitoring i limity czasu.

Scenariusz 2: RAG

  • Cel: długi retrieval + reranking = dłuższa odpowiedź, ale lepsza jakość.
  • Wejście: żądanie użytkownika i pomiar czasu.
  • Kroki: zmierz czas -> znajdź wąskie gardło -> uprość proces.
  • Rezultat: krótsze oczekiwanie na odpowiedź.
  • Zabezpieczenie: monitoring i limity czasu.

Scenariusz 3: Agent

  • Cel: kilka kroków narzędzi = rośnie latency, ale „robi więcej”.
  • Wejście: żądanie użytkownika i pomiar czasu.
  • Kroki: zmierz czas -> znajdź wąskie gardło -> uprość proces.
  • Rezultat: krótsze oczekiwanie na odpowiedź.
  • Zabezpieczenie: monitoring i limity czasu.

Ryzyka i jak je ograniczać

Ryzyko 1: Użytkownik porzuca proces

  • Ryzyko: użytkownik porzuca proces.
  • Jak ograniczać: streaming odpowiedzi + krótkie komunikaty „co się dzieje”.

Ryzyko 2: Próby przyspieszenia obniżą jakość

  • Ryzyko: próby przyspieszenia obniżą jakość.
  • Jak ograniczać: profilowanie i testy; przyspieszaj to, co nie zmienia jakości (cache, top-k).

Ryzyko 3: Przeciążenie

  • Ryzyko: przeciążenie.
  • Jak ograniczać: rate limiting, skalowanie, priorytety.

Mapa powiązań

Diagram

flowchart LR
    A[Zapytanie]
    B[Retrieval lub narzędzia]
    C[Generacja]
    D[Formatowanie]
    E[Odpowiedź]
    A --> B --> C --> D --> E

Diagram pokazuje, z jakich etapów bierze się czas odpowiedzi systemu.

Dalsza lektura