Przejdź do treści

Data provenance (pochodzenie danych)

Definicja

Data provenance to informacja o tym, skąd pochodzą dane: kto je stworzył, kiedy, w jakiej wersji, jak były przetwarzane i gdzie są używane.

Co to w zasadzie jest?

To „metryczka danych”. Dzięki niej da się odpowiedzieć na pytania:

  • „Skąd to wiemy?”
  • „Czy to jest aktualne?”
  • „Kto to zmienił?”
  • „Czy można temu ufać?”

W AI provenance jest ważne, bo jakość odpowiedzi zależy od jakości źródeł.

Praktyczne zastosowania (konkretne scenariusze)

Scenariusz 1: W pojęciowniku

  • Cel: data aktualizacji definicji i autor zmian.
  • Wejście: dokument, dane albo wynik modelu.
  • Kroki: zapisz źródło -> śledź wersję -> pokaż pochodzenie.
  • Rezultat: łatwiejsza weryfikacja materiału.
  • Zabezpieczenie: kontrola wersji i właściciel źródła.

Scenariusz 2: W RAG

  • Cel: informacja z jakiego dokumentu i wersji pochodzi fragment.
  • Wejście: dokument, dane albo wynik modelu.
  • Kroki: zapisz źródło -> śledź wersję -> pokaż pochodzenie.
  • Rezultat: łatwiejsza weryfikacja materiału.
  • Zabezpieczenie: kontrola wersji i właściciel źródła.

Scenariusz 3: W firmie

  • Cel: ślad, że procedura pochodzi z polityki X wersja Y.
  • Wejście: dokument, dane albo wynik modelu.
  • Kroki: zapisz źródło -> śledź wersję -> pokaż pochodzenie.
  • Rezultat: łatwiejsza weryfikacja materiału.
  • Zabezpieczenie: kontrola wersji i właściciel źródła.

Ryzyka i jak je ograniczać

Ryzyko 1: Brak provenance = brak zaufania i trudna naprawa błędów

  • Ryzyko: brak provenance = brak zaufania i trudna naprawa błędów.
  • Jak ograniczać: wersjonowanie, daty aktualizacji, identyfikatory dokumentów.

Ryzyko 2: Provenance jest, ale rozproszone i nieczytelne

  • Ryzyko: provenance jest, ale rozproszone i nieczytelne.
  • Jak ograniczać: standard zapisu metadanych, szablony i automaty.

Ryzyko 3: Ujawnianie zbyt dużo informacji wrażliwych

  • Ryzyko: ujawnianie zbyt dużo informacji wrażliwych.
  • Jak ograniczać: publikuj tylko potrzebne metadane, resztę trzymaj w logach z dostępem.

Mapa powiązań

Diagram

flowchart LR
    A[Źródło]
    B[Metadane]
    C[Transformacje]
    D[Przechowywanie]
    E[Audyt]
    A --> B --> C --> D --> E

Diagram pokazuje, że pochodzenie danych trzeba śledzić od źródła przez transformacje aż do późniejszego użycia i audytu.

Dalsza lektura