Przejdź do treści

Data provenance (pochodzenie danych)

Definicja

Data provenance to informacja o tym, skąd pochodzą dane: kto je stworzył, kiedy, w jakiej wersji, jak były przetwarzane i gdzie są używane.

Co to w zasadzie jest?

To „metryczka danych”. Dzięki niej da się odpowiedzieć na pytania:

„Skąd to wiemy?”
„Czy to jest aktualne?”
„Kto to zmienił?”
„Czy można temu ufać?”

W AI provenance jest ważne, bo jakość odpowiedzi zależy od jakości źródeł.

Praktyczne zastosowania (konkretne scenariusze)

Scenariusz 1: W pojęciowniku

Cel: data aktualizacji definicji i autor zmian.
Wejście: dokument, dane albo wynik modelu.
Kroki: zapisz źródło -> śledź wersję -> pokaż pochodzenie.
Rezultat: łatwiejsza weryfikacja materiału.
Zabezpieczenie: kontrola wersji i właściciel źródła.

Scenariusz 2: W RAG

Cel: informacja z jakiego dokumentu i wersji pochodzi fragment.
Wejście: dokument, dane albo wynik modelu.
Kroki: zapisz źródło -> śledź wersję -> pokaż pochodzenie.
Rezultat: łatwiejsza weryfikacja materiału.
Zabezpieczenie: kontrola wersji i właściciel źródła.

Scenariusz 3: W firmie

Cel: ślad, że procedura pochodzi z polityki X wersja Y.
Wejście: dokument, dane albo wynik modelu.
Kroki: zapisz źródło -> śledź wersję -> pokaż pochodzenie.
Rezultat: łatwiejsza weryfikacja materiału.
Zabezpieczenie: kontrola wersji i właściciel źródła.

Ryzyka i jak je ograniczać

Ryzyko 1: Brak provenance = brak zaufania i trudna naprawa błędów

Ryzyko: brak provenance = brak zaufania i trudna naprawa błędów.
Jak ograniczać: wersjonowanie, daty aktualizacji, identyfikatory dokumentów.

Ryzyko 2: Provenance jest, ale rozproszone i nieczytelne

Ryzyko: provenance jest, ale rozproszone i nieczytelne.
Jak ograniczać: standard zapisu metadanych, szablony i automaty.

Ryzyko 3: Ujawnianie zbyt dużo informacji wrażliwych

Ryzyko: ujawnianie zbyt dużo informacji wrażliwych.
Jak ograniczać: publikuj tylko potrzebne metadane, resztę trzymaj w logach z dostępem.

Mapa powiązań

Cytowanie źródeł → provenance ułatwia cytowanie.
Transparentność → pokazuje skąd treść.
Audit trail → ślad działań i zmian.
Fact-checking → łatwiej weryfikować.
Mini-przepływ: Źródło → wersja → przetwarzanie → użycie w odpowiedzi

Diagram

flowchart LR
    A[Źródło]
    B[Metadane]
    C[Transformacje]
    D[Przechowywanie]
    E[Audyt]
    A --> B --> C --> D --> E

Diagram pokazuje, że pochodzenie danych trzeba śledzić od źródła przez transformacje aż do późniejszego użycia i audytu.

Dalsza lektura

NIST — dobre praktyki wiarygodności i ryzyka (nist.gov)