Ewaluacja
Definicja
Ewaluacja to systematyczne sprawdzanie, jak dobrze model lub asystent radzi sobie z konkretnymi zadaniami.
Co to w zasadzie jest?
- To „testy jakości”, zanim coś trafi do ludzi.
- W firmie liczy się: poprawność, zgodność z procedurą, język prosty, bezpieczeństwo.
- Bez ewaluacji nie wiesz, czy ulepszenie nie pogorszyło wyniku.
Praktyczne zastosowania (konkretne scenariusze)
Scenariusz 1: Test odpowiedzi na 50 typowych pytań klientów
- Cel: test odpowiedzi na 50 typowych pytań klientów.
- Wejście: zestaw testowy i kryteria jakości.
- Kroki: uruchom test -> oceń wyniki -> zapisz wnioski.
- Rezultat: mierzalna ocena jakości.
- Zabezpieczenie: stała rubryka i powtarzalny zestaw testowy.
Scenariusz 2: Test streszczeń dokumentów (czy sens się zgadza)
- Cel: test streszczeń dokumentów (czy sens się zgadza).
- Wejście: zestaw testowy i kryteria jakości.
- Kroki: uruchom test -> oceń wyniki -> zapisz wnioski.
- Rezultat: mierzalna ocena jakości.
- Zabezpieczenie: stała rubryka i powtarzalny zestaw testowy.
Scenariusz 3: Test wykrywania danych wrażliwych (czy asystent nie prosi o PII)
- Cel: test wykrywania danych wrażliwych (czy asystent nie prosi o PII).
- Wejście: zestaw testowy i kryteria jakości.
- Kroki: uruchom test -> oceń wyniki -> zapisz wnioski.
- Rezultat: mierzalna ocena jakości.
- Zabezpieczenie: stała rubryka i powtarzalny zestaw testowy.
Typowe błędy i pułapki
- Testowanie na 5 przykładach „które akurat wyszły”.
- Brak stałych kryteriów oceny.
Ryzyka i jak je ograniczać
Ryzyko 1: Spadek jakości po zmianie
- Ryzyko: Spadek jakości po zmianie.
- Jak ograniczać: regresja testów.
Ryzyko 2: Stronniczość
- Ryzyko: Stronniczość.
- Jak ograniczać: zestawy testowe z różnymi przypadkami.
Ryzyko 3: Brak powtarzalności
- Ryzyko: Brak powtarzalności.
- Jak ograniczać: benchmark i stałe instrukcje.
Checklista “zanim użyjesz”
- Czy masz zestaw pytań testowych?
- Czy masz kryteria oceny (rubryka)?
- Czy mierzysz błędy krytyczne?
- Czy testujesz bezpieczeństwo, na przykład wstrzyknięcie poleceń?
- Czy logujesz wersję modelu i danych?
Diagram
flowchart LR
A[Zadania testowe]
B[Uruchom system]
C[Porównanie z oczekiwanym wynikiem]
D[Metryki]
E[Poprawki]
A --> B --> C --> D --> E
Diagram pokazuje, że ewaluacja polega na mierzeniu jakości systemu na ustalonych przykładach.
Dalsza lektura
Miejsce w mapie
- Ewaluacja → kontroluje: Halucynacje
- Ewaluacja → wspiera: LLMOps
- Ewaluacja → wymaga: Benchmark