Data provenance (pochodzenie danych)
Definicja
Data provenance to informacja o tym, skąd pochodzą dane: kto je stworzył, kiedy, w jakiej wersji, jak były przetwarzane i gdzie są używane.
Co to w zasadzie jest?
To „metryczka danych”. Dzięki niej da się odpowiedzieć na pytania:
- „Skąd to wiemy?”
- „Czy to jest aktualne?”
- „Kto to zmienił?”
- „Czy można temu ufać?”
W AI provenance jest ważne, bo jakość odpowiedzi zależy od jakości źródeł.
Praktyczne zastosowania (konkretne scenariusze)
Scenariusz 1: W pojęciowniku
- Cel: data aktualizacji definicji i autor zmian.
- Wejście: dokument, dane albo wynik modelu.
- Kroki: zapisz źródło -> śledź wersję -> pokaż pochodzenie.
- Rezultat: łatwiejsza weryfikacja materiału.
- Zabezpieczenie: kontrola wersji i właściciel źródła.
Scenariusz 2: W RAG
- Cel: informacja z jakiego dokumentu i wersji pochodzi fragment.
- Wejście: dokument, dane albo wynik modelu.
- Kroki: zapisz źródło -> śledź wersję -> pokaż pochodzenie.
- Rezultat: łatwiejsza weryfikacja materiału.
- Zabezpieczenie: kontrola wersji i właściciel źródła.
Scenariusz 3: W firmie
- Cel: ślad, że procedura pochodzi z polityki X wersja Y.
- Wejście: dokument, dane albo wynik modelu.
- Kroki: zapisz źródło -> śledź wersję -> pokaż pochodzenie.
- Rezultat: łatwiejsza weryfikacja materiału.
- Zabezpieczenie: kontrola wersji i właściciel źródła.
Ryzyka i jak je ograniczać
Ryzyko 1: Brak provenance = brak zaufania i trudna naprawa błędów
- Ryzyko: brak provenance = brak zaufania i trudna naprawa błędów.
- Jak ograniczać: wersjonowanie, daty aktualizacji, identyfikatory dokumentów.
Ryzyko 2: Provenance jest, ale rozproszone i nieczytelne
- Ryzyko: provenance jest, ale rozproszone i nieczytelne.
- Jak ograniczać: standard zapisu metadanych, szablony i automaty.
Ryzyko 3: Ujawnianie zbyt dużo informacji wrażliwych
- Ryzyko: ujawnianie zbyt dużo informacji wrażliwych.
- Jak ograniczać: publikuj tylko potrzebne metadane, resztę trzymaj w logach z dostępem.
Mapa powiązań
- Cytowanie źródeł → provenance ułatwia cytowanie.
- Transparentność → pokazuje skąd treść.
- Audit trail → ślad działań i zmian.
- Fact-checking → łatwiej weryfikować.
- Mini-przepływ:
Źródło → wersja → przetwarzanie → użycie w odpowiedzi
Diagram
flowchart LR
A[Źródło]
B[Metadane]
C[Transformacje]
D[Przechowywanie]
E[Audyt]
A --> B --> C --> D --> E
Diagram pokazuje, że pochodzenie danych trzeba śledzić od źródła przez transformacje aż do późniejszego użycia i audytu.