Przejdź do treści

Observability (obserwowalność)

Definicja

Observability to zdolność „zrozumienia, co się dzieje w systemie” na podstawie logów, metryk i śladów (traces) — tak, aby szybko wykrywać błędy i poprawiać działanie.

Co to w zasadzie jest?

Monitoring to „czy działa”. Observability to „dlaczego działa / dlaczego nie działa”. W systemach AI jest to ważne, bo odpowiedź zależy od wielu elementów:

  • promptów,
  • retrieval i źródeł,
  • narzędzi,
  • ustawień modelu,
  • wersji treści.

Bez obserwowalności trudno odtworzyć: „czemu AI powiedziała X?”

Praktyczne zastosowania (konkretne scenariusze)

Scenariusz 1: Widzisz, że jakość spadła — sprawdzasz, czy zmieniły się źródła RAG

  • Cel: widzisz, że jakość spadła — sprawdzasz, czy zmieniły się źródła RAG.
  • Wejście: logi, metryki, ślady i identyfikator żądania.
  • Kroki: zbierz sygnały -> porównaj wersje -> znajdź przyczynę.
  • Rezultat: szybsza diagnoza problemu.
  • Zabezpieczenie: maskowanie danych i kontrola dostępu do logów.

Scenariusz 2: Ktoś zgłasza błąd — odtwarzasz dokładny prompt i kontekst

  • Cel: ktoś zgłasza błąd — odtwarzasz dokładny prompt i kontekst.
  • Wejście: logi, metryki, ślady i identyfikator żądania.
  • Kroki: zbierz sygnały -> porównaj wersje -> znajdź przyczynę.
  • Rezultat: szybsza diagnoza problemu.
  • Zabezpieczenie: maskowanie danych i kontrola dostępu do logów.

Scenariusz 3: Analizujesz koszty — widzisz które zadania zjadają najwięcej tokenów

  • Cel: analizujesz koszty — widzisz które zadania zjadają najwięcej tokenów.
  • Wejście: logi, metryki, ślady i identyfikator żądania.
  • Kroki: zbierz sygnały -> porównaj wersje -> znajdź przyczynę.
  • Rezultat: szybsza diagnoza problemu.
  • Zabezpieczenie: maskowanie danych i kontrola dostępu do logów.

Ryzyka i jak je ograniczać

Ryzyko 1: Logi zawierają dane wrażliwe

  • Ryzyko: logi zawierają dane wrażliwe.
  • Jak ograniczać: maskowanie PII, minimalizacja, kontrola dostępu do logów.

Ryzyko 2: Za dużo danych i chaos

  • Ryzyko: za dużo danych i chaos.
  • Jak ograniczać: standard formatów, tagi, dashboardy, retencja.

Ryzyko 3: Brak spójności (nie da się porównać wersji)

  • Ryzyko: brak spójności (nie da się porównać wersji).
  • Jak ograniczać: wersjonowanie promptów i źródeł + identyfikatory żądań.

Mapa powiązań

  • LLMOps → observability to fundament operacji.
  • Audit trail → kto/co/kiedy.
  • Monitoring jakości → metryki jakości.
  • DLP / PII → bezpieczeństwo logów.
  • Mini-przepływ: Metryki + logi + ślady → diagnoza → poprawka

Diagram

flowchart LR
    A[Metryki]
    B[Logi]
    C[Ślady]
    D[Diagnoza]
    E[Poprawka]
    A --> D
    B --> D
    C --> D --> E

Diagram pokazuje, że obserwowalność łączy metryki, logi i ślady, aby zrozumieć działanie systemu.

Dalsza lektura