Przejdź do treści

Ewaluacja

Definicja

Ewaluacja to systematyczne sprawdzanie, jak dobrze model lub asystent radzi sobie z konkretnymi zadaniami.

Co to w zasadzie jest?

  • To „testy jakości”, zanim coś trafi do ludzi.
  • W firmie liczy się: poprawność, zgodność z procedurą, język prosty, bezpieczeństwo.
  • Bez ewaluacji nie wiesz, czy ulepszenie nie pogorszyło wyniku.

Praktyczne zastosowania (konkretne scenariusze)

Scenariusz 1: Test odpowiedzi na 50 typowych pytań klientów

  • Cel: test odpowiedzi na 50 typowych pytań klientów.
  • Wejście: zestaw testowy i kryteria jakości.
  • Kroki: uruchom test -> oceń wyniki -> zapisz wnioski.
  • Rezultat: mierzalna ocena jakości.
  • Zabezpieczenie: stała rubryka i powtarzalny zestaw testowy.

Scenariusz 2: Test streszczeń dokumentów (czy sens się zgadza)

  • Cel: test streszczeń dokumentów (czy sens się zgadza).
  • Wejście: zestaw testowy i kryteria jakości.
  • Kroki: uruchom test -> oceń wyniki -> zapisz wnioski.
  • Rezultat: mierzalna ocena jakości.
  • Zabezpieczenie: stała rubryka i powtarzalny zestaw testowy.

Scenariusz 3: Test wykrywania danych wrażliwych (czy asystent nie prosi o PII)

  • Cel: test wykrywania danych wrażliwych (czy asystent nie prosi o PII).
  • Wejście: zestaw testowy i kryteria jakości.
  • Kroki: uruchom test -> oceń wyniki -> zapisz wnioski.
  • Rezultat: mierzalna ocena jakości.
  • Zabezpieczenie: stała rubryka i powtarzalny zestaw testowy.

Typowe błędy i pułapki

  • Testowanie na 5 przykładach „które akurat wyszły”.
  • Brak stałych kryteriów oceny.

Ryzyka i jak je ograniczać

Ryzyko 1: Spadek jakości po zmianie

  • Ryzyko: Spadek jakości po zmianie.
  • Jak ograniczać: regresja testów.

Ryzyko 2: Stronniczość

  • Ryzyko: Stronniczość.
  • Jak ograniczać: zestawy testowe z różnymi przypadkami.

Ryzyko 3: Brak powtarzalności

  • Ryzyko: Brak powtarzalności.
  • Jak ograniczać: benchmark i stałe instrukcje.

Checklista “zanim użyjesz”

  • Czy masz zestaw pytań testowych?
  • Czy masz kryteria oceny (rubryka)?
  • Czy mierzysz błędy krytyczne?
  • Czy testujesz bezpieczeństwo, na przykład wstrzyknięcie poleceń?
  • Czy logujesz wersję modelu i danych?

Diagram

flowchart LR
    A[Zadania testowe]
    B[Uruchom system]
    C[Porównanie z oczekiwanym wynikiem]
    D[Metryki]
    E[Poprawki]
    A --> B --> C --> D --> E

Diagram pokazuje, że ewaluacja polega na mierzeniu jakości systemu na ustalonych przykładach.

Dalsza lektura

Miejsce w mapie

Powiązane hasła