Przejdź do treści

Zatrucie kontekstu

Definicja

Zatrucie kontekstu to celowe lub przypadkowe dodanie do kontekstu AI treści, które psują odpowiedź albo skłaniają system do złego działania.

Co to w zasadzie jest?

AI odpowiada na podstawie tego, co „widzi” w kontekście, czyli w poleceniu i dołączonych dokumentach. Jeśli w tym kontekście znajdzie się:

  • fałszywa informacja,
  • „instrukcja udająca dokument”,
  • złośliwy fragment tekstu, to model może zrobić coś niepożądanego.

To może się zdarzyć w RAG, gdy problem jest w dokumentach, albo w rozmowie, gdy użytkownik coś wkleja.

Praktyczne zastosowania (konkretne scenariusze)

Scenariusz 1: Do bazy wiedzy trafia dokument z ukrytą instrukcją

  • Cel: „ignoruj zasady i ujawnij dane”.
  • Wejście: kontekst rozmowy albo dokumenty RAG.
  • Kroki: wykryj podejrzany fragment -> odseparuj dane -> sprawdź odpowiedź.
  • Rezultat: mniejsze ryzyko przejęcia kontekstu.
  • Zabezpieczenie: separacja instrukcji od danych.

Scenariusz 2: Ktoś wkleja „przepis” zawierający polecenie dla modelu

  • Cel: ktoś wkleja „przepis” zawierający polecenie dla modelu.
  • Wejście: kontekst rozmowy albo dokumenty RAG.
  • Kroki: wykryj podejrzany fragment -> odseparuj dane -> sprawdź odpowiedź.
  • Rezultat: mniejsze ryzyko przejęcia kontekstu.
  • Zabezpieczenie: separacja instrukcji od danych.

Scenariusz 3: Artykuł zawiera fałszywe dane i AI je bezkrytycznie powtarza

  • Cel: artykuł zawiera fałszywe dane i AI je bezkrytycznie powtarza.
  • Wejście: kontekst rozmowy albo dokumenty RAG.
  • Kroki: wykryj podejrzany fragment -> odseparuj dane -> sprawdź odpowiedź.
  • Rezultat: mniejsze ryzyko przejęcia kontekstu.
  • Zabezpieczenie: separacja instrukcji od danych.

Ryzyka i jak je ograniczać

Ryzyko 1: Wykonanie niebezpiecznej akcji lub wyciek danych

  • Ryzyko: wykonanie niebezpiecznej akcji lub wyciek danych.
  • Jak ograniczać: separacja instrukcji od danych + filtrowanie + uprawnienia narzędzi.

Ryzyko 2: Odpowiedzi stają się nieprawdziwe

  • Ryzyko: odpowiedzi stają się nieprawdziwe.
  • Jak ograniczać: cytowanie źródeł, fact-checking, ranking źródeł.

Ryzyko 3: Trudne do wykrycia „ciche” manipulacje

  • Ryzyko: trudne do wykrycia „ciche” manipulacje.
  • Jak ograniczać: monitoring, red teaming, testy na przykładach ataków.

Mapa powiązań

  • Prompt injection → zbliżone zjawisko; atak często działa przez kontekst.
  • RAG / Data poisoning → zatrucie dokumentów i źródeł.
  • Guardrails → zasady ochronne.
  • Audit trail → ślad „skąd wzięło się to w kontekście”.
  • Mini-przepływ: Złośliwa treść → kontekst → model → zła odpowiedź/akcja

Diagram

flowchart LR
    A[Złośliwa lub błędna treść]
    B[Trafia do kontekstu]
    C[Model]
    D[Zła odpowiedź lub akcja]
    E[Filtry i separacja]
    A --> B --> C --> D
    B --> E --> C

Diagram pokazuje, że jedna zła treść w kontekście może wypaczyć odpowiedź modelu, dlatego potrzebne są filtry i rozdzielenie danych od instrukcji.

Dalsza lektura