Baza wektorowa (Vector database)
Definicja
Baza wektorowa to system, który przechowuje embeddingi i pozwala szybko znaleźć najbardziej podobne fragmenty treści.
Co to w zasadzie jest?
- To „wyszukiwarka po znaczeniu”, tylko zoptymalizowana pod liczby (wektory).
- Zamiast szukać słów kluczowych, szuka „najbliższych sensów”.
- Najczęściej działa razem z RAG.
Praktyczne zastosowania (konkretne scenariusze)
Scenariusz 1: Asystent procedur
- Cel: asystent procedur.
- Wejście: pytanie.
- Kroki: embedding → search w bazie → cytaty.
- Rezultat: odpowiedź z linkami.
- Zabezpieczenie: tylko zatwierdzone źródła.
Scenariusz 2: Obsługa infolinii (skrypty)
- Cel: obsługa infolinii (skrypty).
- Wejście: temat rozmowy.
- Kroki: wyszukaj podobne przypadki → podpowiedzi.
- Rezultat: szybsza obsługa.
- Zabezpieczenie: log + kontrola jakości.
Scenariusz 3: Wyszukiwanie w regulaminch/zarządzeniach
- Cel: wyszukiwanie w regulaminch/zarządzeniach.
- Wejście: fraza „po sensie”.
- Kroki: embedding → top fragmenty.
- Rezultat: lista cytatów.
- Zabezpieczenie: wersjonowanie dokumentów.
Typowe błędy i pułapki
- Brak filtrów po dacie/typie dokumentu.
- Niewłaściwe metadane (tagi) → złe wyniki.
- Indeks nieaktualny.
Ryzyka i jak je ograniczać
Ryzyko 1: Zatrucie bazy (poisoning)
- Ryzyko: Zatrucie bazy (poisoning): wstrzyknięty złośliwy fragment.
- Jak ograniczać: whitelist źródeł + review.
Ryzyko 2: Prywatność
- Ryzyko: Prywatność: embeddingi mogą „niosą” sens danych.
- Jak ograniczać: polityka danych + anonimizacja.
Ryzyko 3: Błędne cytowanie
- Ryzyko: Błędne cytowanie: brak kontroli fragmentów.
- Jak ograniczać: zawsze pokazuj źródło i cytat.
Checklista “zanim użyjesz”
- Czy źródła są zatwierdzone?
- Czy jest proces aktualizacji indeksu?
- Czy są filtry po dziale i dacie?
- Czy wynik zawsze pokazuje cytat i link?
- Czy logujesz zapytania (audit trail)?
Diagram
flowchart LR
A[Zapytanie]
B[Embedding]
C[Baza wektorowa]
D[Podobne fragmenty]
E[Wynik]
A --> B --> C --> D --> E
Diagram pokazuje, że baza wektorowa służy do wyszukiwania podobnych treści po znaczeniu, a nie tylko po słowach.
Dalsza lektura
- NIST AI RMF (zarządzanie ryzykiem).
- OWASP LLM Top 10 (zagrożenia aplikacji LLM).
- Dokumentacje narzędzi do vector search (porównanie podejść).
Miejsce w mapie
- Baza wektorowa → przechowuje: Embedding
- Baza wektorowa → umożliwia: RAG
- Baza wektorowa → narażona na: Data poisoning