Przejdź do treści

Dzielenie na fragmenty

Definicja

Chunking to dzielenie dokumentów na mniejsze fragmenty. Dzięki temu łatwiej je wyszukać i wstawić do kontekstu modelu.

Co to w zasadzie jest?

  • Model nie „połknie” całej książki naraz — ma limit kontekstu.
  • Dlatego dokument dzieli się na sensowne części, na przykład akapity albo sekcje.
  • Dobre fragmenty zwykle dają lepsze odpowiedzi w RAG.

Praktyczne zastosowania (konkretne scenariusze)

Scenariusz 1: RAG do procedur

  • Cel: RAG do procedur.
  • Wejście: PDF procedury.
  • Kroki: podział na sekcje → embedding → baza.
  • Rezultat: trafne cytaty.
  • Zabezpieczenie: zachowanie numerów rozdziałów.

Scenariusz 2: Baza odpowiedzi do strony WWW i FAQ

  • Cel: baza odpowiedzi do strony WWW i FAQ.
  • Wejście: regulaminy i FAQ.
  • Kroki: podział na fragmenty -> linkowanie -> wyszukiwarka.
  • Rezultat: szybkie dopasowanie.
  • Zabezpieczenie: kontrola wersji.

Scenariusz 3: Analiza uchwał

  • Cel: analiza uchwał.
  • Wejście: długie dokumenty.
  • Kroki: dziel po paragrafach.
  • Rezultat: cytowanie konkretów.
  • Zabezpieczenie: spójne ID fragmentów.

Typowe błędy i pułapki

  • Zbyt krótkie fragmenty -> brak kontekstu.
  • Zbyt długie fragmenty -> szum i gorsze wyniki.
  • Dzielenie w losowych miejscach (bez nagłówków).

Ryzyka i jak je ograniczać

Ryzyko 1: Utrata kontekstu

  • Ryzyko: Utrata kontekstu: fragment bez definicji.
  • Jak ograniczać: overlap (nakładanie) + sekcje.

Ryzyko 2: Błędne cytaty

  • Ryzyko: Błędne cytaty: brak źródła fragmentu.
  • Jak ograniczać: metadane: tytuł, rozdział, URL.

Ryzyko 3: Bałagan w aktualizacjach

  • Ryzyko: Bałagan w aktualizacjach: fragmenty się „rozjeżdżają”.
  • Jak ograniczać: stałe identyfikatory.

Checklista “zanim użyjesz”

  • Czy chunk ma tytuł/sekcję?
  • Czy jest overlap (np. 10–20%)?
  • Czy fragment ma link do źródła?
  • Czy rozmiar chunków jest testowany na pytaniach?
  • Czy aktualizacja dokumentu przebudowuje indeks?

Diagram

flowchart LR
    A[Dokument]
    B[Podział na fragmenty]
    C[Metadane]
    D[Wyszukiwanie]
    E[Cytat lub odpowiedź]
    A --> B --> C --> D --> E

Diagram pokazuje, że długi dokument trzeba podzielić na sensowne fragmenty, aby łatwiej go wyszukać i zacytować.

Dalsza lektura

Miejsce w mapie

Powiązane hasła