Przejdź do treści

Latency (opóźnienie odpowiedzi)

Definicja

Latency to czas od wysłania pytania do otrzymania odpowiedzi (lub pierwszego sensownego fragmentu odpowiedzi).

Co to w zasadzie jest?

Użytkownik czuje „czy to działa szybko?”. To właśnie latency. W AI opóźnienie rośnie m.in. gdy:

prompt jest bardzo długi,
retrieval pobiera dużo fragmentów,
agent wykonuje wiele narzędzi,
system jest obciążony.

Praktyczne zastosowania (konkretne scenariusze)

Scenariusz 1: Chat

Cel: 1–2 sekundy jest „komfortowe”, 10 sekund często frustruje.
Wejście: żądanie użytkownika i pomiar czasu.
Kroki: zmierz czas -> znajdź wąskie gardło -> uprość proces.
Rezultat: krótsze oczekiwanie na odpowiedź.
Zabezpieczenie: monitoring i limity czasu.

Scenariusz 2: RAG

Cel: długi retrieval + reranking = dłuższa odpowiedź, ale lepsza jakość.
Wejście: żądanie użytkownika i pomiar czasu.
Kroki: zmierz czas -> znajdź wąskie gardło -> uprość proces.
Rezultat: krótsze oczekiwanie na odpowiedź.
Zabezpieczenie: monitoring i limity czasu.

Scenariusz 3: Agent

Cel: kilka kroków narzędzi = rośnie latency, ale „robi więcej”.
Wejście: żądanie użytkownika i pomiar czasu.
Kroki: zmierz czas -> znajdź wąskie gardło -> uprość proces.
Rezultat: krótsze oczekiwanie na odpowiedź.
Zabezpieczenie: monitoring i limity czasu.

Ryzyka i jak je ograniczać

Ryzyko 1: Użytkownik porzuca proces

Ryzyko: użytkownik porzuca proces.
Jak ograniczać: streaming odpowiedzi + krótkie komunikaty „co się dzieje”.

Ryzyko 2: Próby przyspieszenia obniżą jakość

Ryzyko: próby przyspieszenia obniżą jakość.
Jak ograniczać: profilowanie i testy; przyspieszaj to, co nie zmienia jakości (cache, top-k).

Ryzyko 3: Przeciążenie

Ryzyko: przeciążenie.
Jak ograniczać: rate limiting, skalowanie, priorytety.

Mapa powiązań

Token / Okno kontekstowe → dłuższe wejście = często wolniej.
RAG / Retrieval / Reranking → etapy zwiększają latency.
Caching → zmniejsza latency.
Monitoring jakości → obserwacja czasu odpowiedzi.
Mini-przepływ: Wejście → przetwarzanie → odpowiedź (czas)

Diagram

flowchart LR
    A[Zapytanie]
    B[Retrieval lub narzędzia]
    C[Generacja]
    D[Formatowanie]
    E[Odpowiedź]
    A --> B --> C --> D --> E

Diagram pokazuje, z jakich etapów bierze się czas odpowiedzi systemu.

Dalsza lektura

NIST — niezawodność i ryzyko systemów (nist.gov)