Przejdź do treści

Hybrid search (wyszukiwanie hybrydowe)

Definicja

Hybrid search to łączenie dwóch podejść do wyszukiwania: klasycznego (słowa kluczowe) i semantycznego (embeddingi), aby lepiej trafiać w intencję pytania.

Co to w zasadzie jest?

Słowa kluczowe świetnie działają, gdy ktoś zna nazwę („RAG”, „DLP”). Semantyka działa, gdy ktoś opisuje problem („jak uniknąć wycieków danych do AI”). Hybryda bierze najlepsze z obu światów:

  • dopasowanie po frazach,
  • dopasowanie po znaczeniu.

Praktyczne zastosowania (konkretne scenariusze)

Scenariusz 1: Pytanie

  • Cel: „jak chronić dane osobowe w AI” → semantyka trafia w PII/DLP.
  • Wejście: zapytanie użytkownika i indeks tekstowy/wektorowy.
  • Kroki: wyszukaj tekstowo -> wyszukaj semantycznie -> połącz wyniki.
  • Rezultat: większa trafność wyszukiwania.
  • Zabezpieczenie: reranking i testy jakości.

Scenariusz 2: Pytanie

  • Cel: „prompt leakage” → keyword search łapie termin.
  • Wejście: zapytanie użytkownika i indeks tekstowy/wektorowy.
  • Kroki: wyszukaj tekstowo -> wyszukaj semantycznie -> połącz wyniki.
  • Rezultat: większa trafność wyszukiwania.
  • Zabezpieczenie: reranking i testy jakości.

Scenariusz 3: Pytanie

  • Cel: „baza wektorowa” → hybryda znajduje i „vector database”, i „embedding”.
  • Wejście: zapytanie użytkownika i indeks tekstowy/wektorowy.
  • Kroki: wyszukaj tekstowo -> wyszukaj semantycznie -> połącz wyniki.
  • Rezultat: większa trafność wyszukiwania.
  • Zabezpieczenie: reranking i testy jakości.

Ryzyka i jak je ograniczać

Ryzyko 1: Skomplikowanie i trudność strojenia

  • Ryzyko: skomplikowanie i trudność strojenia.
  • Jak ograniczać: testy na realnych pytaniach + proste heurystyki.

Ryzyko 2: Złe wyniki w długich dokumentach

  • Ryzyko: złe wyniki w długich dokumentach.
  • Jak ograniczać: chunking + reranking.

Ryzyko 3: Koszty

  • Ryzyko: koszty.
  • Jak ograniczać: cache, top-k, profilowanie.

Mapa powiązań

  • Embedding / Vector database → filar semantyki.
  • Chunking → poprawia trafność.
  • Reranking → drugi filtr jakości.
  • RAG → hybryda często jest częścią RAG.
  • Mini-przepływ: Keyword + semantyka → wspólne wyniki → rerank

Diagram

flowchart LR
    A[Pytanie]
    B[Wyszukiwanie słów]
    C[Wyszukiwanie znaczenia]
    D[Połączenie wyników]
    E[Lepszy kontekst]
    A --> B --> D
    A --> C --> D --> E

Diagram pokazuje, że wyszukiwanie hybrydowe łączy dopasowanie po słowach i po sensie.

Dalsza lektura