Przejdź do treści

Ground truth (prawda referencyjna)

Definicja

Ground truth to „prawidłowa odpowiedź” lub zestaw danych referencyjnych, do których porównujesz wyniki AI.

Co to w zasadzie jest?

Jeśli chcesz ocenić, czy AI działa dobrze, musisz mieć punkt odniesienia:

prawidłowe odpowiedzi,
poprawne etykiety,
sprawdzone źródła.

Bez ground truth łatwo wpaść w pułapkę: „wydaje się OK”, ale w praktyce jest źle.

Praktyczne zastosowania (konkretne scenariusze)

Scenariusz 1: Zestaw 100 pytań o pojęciownik z przygotowanymi dobrymi odpowiedziami

Cel: zestaw 100 pytań o pojęciownik z przygotowanymi dobrymi odpowiedziami.
Wejście: zestaw referencyjnych odpowiedzi albo etykiet.
Kroki: porównaj wynik -> policz różnice -> popraw model lub prompt.
Rezultat: ocena jakości oparta na wzorcu.
Zabezpieczenie: aktualizacja i przegląd danych referencyjnych.

Scenariusz 2: Lista „poprawnych” fragmentów dokumentów do retrieval

Cel: lista „poprawnych” fragmentów dokumentów do retrieval.
Wejście: zestaw referencyjnych odpowiedzi albo etykiet.
Kroki: porównaj wynik -> policz różnice -> popraw model lub prompt.
Rezultat: ocena jakości oparta na wzorcu.
Zabezpieczenie: aktualizacja i przegląd danych referencyjnych.

Scenariusz 3: Testy bezpieczeństwa

Cel: oczekiwana reakcja „odmowa” na niebezpieczne prośby.
Wejście: zestaw referencyjnych odpowiedzi albo etykiet.
Kroki: porównaj wynik -> policz różnice -> popraw model lub prompt.
Rezultat: ocena jakości oparta na wzorcu.
Zabezpieczenie: aktualizacja i przegląd danych referencyjnych.

Ryzyka i jak je ograniczać

Ryzyko 1: Ground truth jest nieaktualne

Ryzyko: ground truth jest nieaktualne.
Jak ograniczać: aktualizacje, wersjonowanie, daty.

Ryzyko 2: Ground truth jest stronnicze

Ryzyko: ground truth jest stronnicze.
Jak ograniczać: różne osoby, różne przypadki, analiza bias.

Ryzyko 3: Porównujesz nie to, co trzeba (zła metryka)

Ryzyko: porównujesz nie to, co trzeba (zła metryka).
Jak ograniczać: jasne kryteria jakości i metryki.

Mapa powiązań

Ewaluacja → bez ground truth nie ma dobrej ewaluacji.
Benchmark → benchmarky opierają się na danych referencyjnych.
Fact-checking → ground truth jako baza do weryfikacji.
Drift → porównanie „w czasie” do prawdy referencyjnej.
Mini-przepływ: Ground truth → testy → metryki → poprawki

Diagram

flowchart LR
    A[Poprawna odpowiedź]
    B[Wynik systemu]
    C[Porównanie]
    D[Metryka]
    E[Wniosek]
    A --> C
    B --> C --> D --> E

Diagram pokazuje, że ground truth jest punktem odniesienia do oceny jakości systemu.

Dalsza lektura

NIST — metody oceny i ryzyka (nist.gov)