Ground truth (prawda referencyjna)
Definicja
Ground truth to „prawidłowa odpowiedź” lub zestaw danych referencyjnych, do których porównujesz wyniki AI.
Co to w zasadzie jest?
Jeśli chcesz ocenić, czy AI działa dobrze, musisz mieć punkt odniesienia:
- prawidłowe odpowiedzi,
- poprawne etykiety,
- sprawdzone źródła.
Bez ground truth łatwo wpaść w pułapkę: „wydaje się OK”, ale w praktyce jest źle.
Praktyczne zastosowania (konkretne scenariusze)
Scenariusz 1: Zestaw 100 pytań o pojęciownik z przygotowanymi dobrymi odpowiedziami
- Cel: zestaw 100 pytań o pojęciownik z przygotowanymi dobrymi odpowiedziami.
- Wejście: zestaw referencyjnych odpowiedzi albo etykiet.
- Kroki: porównaj wynik -> policz różnice -> popraw model lub prompt.
- Rezultat: ocena jakości oparta na wzorcu.
- Zabezpieczenie: aktualizacja i przegląd danych referencyjnych.
Scenariusz 2: Lista „poprawnych” fragmentów dokumentów do retrieval
- Cel: lista „poprawnych” fragmentów dokumentów do retrieval.
- Wejście: zestaw referencyjnych odpowiedzi albo etykiet.
- Kroki: porównaj wynik -> policz różnice -> popraw model lub prompt.
- Rezultat: ocena jakości oparta na wzorcu.
- Zabezpieczenie: aktualizacja i przegląd danych referencyjnych.
Scenariusz 3: Testy bezpieczeństwa
- Cel: oczekiwana reakcja „odmowa” na niebezpieczne prośby.
- Wejście: zestaw referencyjnych odpowiedzi albo etykiet.
- Kroki: porównaj wynik -> policz różnice -> popraw model lub prompt.
- Rezultat: ocena jakości oparta na wzorcu.
- Zabezpieczenie: aktualizacja i przegląd danych referencyjnych.
Ryzyka i jak je ograniczać
Ryzyko 1: Ground truth jest nieaktualne
- Ryzyko: ground truth jest nieaktualne.
- Jak ograniczać: aktualizacje, wersjonowanie, daty.
Ryzyko 2: Ground truth jest stronnicze
- Ryzyko: ground truth jest stronnicze.
- Jak ograniczać: różne osoby, różne przypadki, analiza bias.
Ryzyko 3: Porównujesz nie to, co trzeba (zła metryka)
- Ryzyko: porównujesz nie to, co trzeba (zła metryka).
- Jak ograniczać: jasne kryteria jakości i metryki.
Mapa powiązań
- Ewaluacja → bez ground truth nie ma dobrej ewaluacji.
- Benchmark → benchmarky opierają się na danych referencyjnych.
- Fact-checking → ground truth jako baza do weryfikacji.
- Drift → porównanie „w czasie” do prawdy referencyjnej.
- Mini-przepływ:
Ground truth → testy → metryki → poprawki
Diagram
flowchart LR
A[Poprawna odpowiedź]
B[Wynik systemu]
C[Porównanie]
D[Metryka]
E[Wniosek]
A --> C
B --> C --> D --> E
Diagram pokazuje, że ground truth jest punktem odniesienia do oceny jakości systemu.