Observability (obserwowalność)

Definicja

Observability to zdolność „zrozumienia, co się dzieje w systemie” na podstawie logów, metryk i śladów (traces) — tak, aby szybko wykrywać błędy i poprawiać działanie.

Co to w zasadzie jest?

Monitoring to „czy działa”. Observability to „dlaczego działa / dlaczego nie działa”. W systemach AI jest to ważne, bo odpowiedź zależy od wielu elementów:

promptów,
retrieval i źródeł,
narzędzi,
ustawień modelu,
wersji treści.

Bez obserwowalności trudno odtworzyć: „czemu AI powiedziała X?”

Praktyczne zastosowania (konkretne scenariusze)

Scenariusz 1: Widzisz, że jakość spadła — sprawdzasz, czy zmieniły się źródła RAG

Cel: widzisz, że jakość spadła — sprawdzasz, czy zmieniły się źródła RAG.
Wejście: logi, metryki, ślady i identyfikator żądania.
Kroki: zbierz sygnały -> porównaj wersje -> znajdź przyczynę.
Rezultat: szybsza diagnoza problemu.
Zabezpieczenie: maskowanie danych i kontrola dostępu do logów.

Scenariusz 2: Ktoś zgłasza błąd — odtwarzasz dokładny prompt i kontekst

Cel: ktoś zgłasza błąd — odtwarzasz dokładny prompt i kontekst.
Wejście: logi, metryki, ślady i identyfikator żądania.
Kroki: zbierz sygnały -> porównaj wersje -> znajdź przyczynę.
Rezultat: szybsza diagnoza problemu.
Zabezpieczenie: maskowanie danych i kontrola dostępu do logów.

Scenariusz 3: Analizujesz koszty — widzisz które zadania zjadają najwięcej tokenów

Cel: analizujesz koszty — widzisz które zadania zjadają najwięcej tokenów.
Wejście: logi, metryki, ślady i identyfikator żądania.
Kroki: zbierz sygnały -> porównaj wersje -> znajdź przyczynę.
Rezultat: szybsza diagnoza problemu.
Zabezpieczenie: maskowanie danych i kontrola dostępu do logów.

Ryzyka i jak je ograniczać

Ryzyko 1: Logi zawierają dane wrażliwe

Ryzyko: logi zawierają dane wrażliwe.
Jak ograniczać: maskowanie PII, minimalizacja, kontrola dostępu do logów.

Ryzyko 2: Za dużo danych i chaos

Ryzyko: za dużo danych i chaos.
Jak ograniczać: standard formatów, tagi, dashboardy, retencja.

Ryzyko 3: Brak spójności (nie da się porównać wersji)

Ryzyko: brak spójności (nie da się porównać wersji).
Jak ograniczać: wersjonowanie promptów i źródeł + identyfikatory żądań.

Mapa powiązań

LLMOps → observability to fundament operacji.
Audit trail → kto/co/kiedy.
Monitoring jakości → metryki jakości.
DLP / PII → bezpieczeństwo logów.
Mini-przepływ: Metryki + logi + ślady → diagnoza → poprawka

Diagram

flowchart LR
    A[Metryki]
    B[Logi]
    C[Ślady]
    D[Diagnoza]
    E[Poprawka]
    A --> D
    B --> D
    C --> D --> E

Diagram pokazuje, że obserwowalność łączy metryki, logi i ślady, aby zrozumieć działanie systemu.

Dalsza lektura

NIST — zarządzanie ryzykiem i jakością (nist.gov)