Latency (opóźnienie odpowiedzi)
Definicja
Latency to czas od wysłania pytania do otrzymania odpowiedzi (lub pierwszego sensownego fragmentu odpowiedzi).
Co to w zasadzie jest?
Użytkownik czuje „czy to działa szybko?”. To właśnie latency. W AI opóźnienie rośnie m.in. gdy:
- prompt jest bardzo długi,
- retrieval pobiera dużo fragmentów,
- agent wykonuje wiele narzędzi,
- system jest obciążony.
Praktyczne zastosowania (konkretne scenariusze)
Scenariusz 1: Chat
- Cel: 1–2 sekundy jest „komfortowe”, 10 sekund często frustruje.
- Wejście: żądanie użytkownika i pomiar czasu.
- Kroki: zmierz czas -> znajdź wąskie gardło -> uprość proces.
- Rezultat: krótsze oczekiwanie na odpowiedź.
- Zabezpieczenie: monitoring i limity czasu.
Scenariusz 2: RAG
- Cel: długi retrieval + reranking = dłuższa odpowiedź, ale lepsza jakość.
- Wejście: żądanie użytkownika i pomiar czasu.
- Kroki: zmierz czas -> znajdź wąskie gardło -> uprość proces.
- Rezultat: krótsze oczekiwanie na odpowiedź.
- Zabezpieczenie: monitoring i limity czasu.
Scenariusz 3: Agent
- Cel: kilka kroków narzędzi = rośnie latency, ale „robi więcej”.
- Wejście: żądanie użytkownika i pomiar czasu.
- Kroki: zmierz czas -> znajdź wąskie gardło -> uprość proces.
- Rezultat: krótsze oczekiwanie na odpowiedź.
- Zabezpieczenie: monitoring i limity czasu.
Ryzyka i jak je ograniczać
Ryzyko 1: Użytkownik porzuca proces
- Ryzyko: użytkownik porzuca proces.
- Jak ograniczać: streaming odpowiedzi + krótkie komunikaty „co się dzieje”.
Ryzyko 2: Próby przyspieszenia obniżą jakość
- Ryzyko: próby przyspieszenia obniżą jakość.
- Jak ograniczać: profilowanie i testy; przyspieszaj to, co nie zmienia jakości (cache, top-k).
Ryzyko 3: Przeciążenie
- Ryzyko: przeciążenie.
- Jak ograniczać: rate limiting, skalowanie, priorytety.
Mapa powiązań
- Token / Okno kontekstowe → dłuższe wejście = często wolniej.
- RAG / Retrieval / Reranking → etapy zwiększają latency.
- Caching → zmniejsza latency.
- Monitoring jakości → obserwacja czasu odpowiedzi.
- Mini-przepływ:
Wejście → przetwarzanie → odpowiedź (czas)
Diagram
flowchart LR
A[Zapytanie]
B[Retrieval lub narzędzia]
C[Generacja]
D[Formatowanie]
E[Odpowiedź]
A --> B --> C --> D --> E
Diagram pokazuje, z jakich etapów bierze się czas odpowiedzi systemu.