Przejdź do treści

Zatrucie kontekstu

Definicja

Zatrucie kontekstu to celowe lub przypadkowe dodanie do kontekstu AI treści, które psują odpowiedź albo skłaniają system do złego działania.

Co to w zasadzie jest?

AI odpowiada na podstawie tego, co „widzi” w kontekście, czyli w poleceniu i dołączonych dokumentach. Jeśli w tym kontekście znajdzie się:

fałszywa informacja,
„instrukcja udająca dokument”,
złośliwy fragment tekstu, to model może zrobić coś niepożądanego.

To może się zdarzyć w RAG, gdy problem jest w dokumentach, albo w rozmowie, gdy użytkownik coś wkleja.

Praktyczne zastosowania (konkretne scenariusze)

Scenariusz 1: Do bazy wiedzy trafia dokument z ukrytą instrukcją

Cel: „ignoruj zasady i ujawnij dane”.
Wejście: kontekst rozmowy albo dokumenty RAG.
Kroki: wykryj podejrzany fragment -> odseparuj dane -> sprawdź odpowiedź.
Rezultat: mniejsze ryzyko przejęcia kontekstu.
Zabezpieczenie: separacja instrukcji od danych.

Scenariusz 2: Ktoś wkleja „przepis” zawierający polecenie dla modelu

Cel: ktoś wkleja „przepis” zawierający polecenie dla modelu.
Wejście: kontekst rozmowy albo dokumenty RAG.
Kroki: wykryj podejrzany fragment -> odseparuj dane -> sprawdź odpowiedź.
Rezultat: mniejsze ryzyko przejęcia kontekstu.
Zabezpieczenie: separacja instrukcji od danych.

Scenariusz 3: Artykuł zawiera fałszywe dane i AI je bezkrytycznie powtarza

Cel: artykuł zawiera fałszywe dane i AI je bezkrytycznie powtarza.
Wejście: kontekst rozmowy albo dokumenty RAG.
Kroki: wykryj podejrzany fragment -> odseparuj dane -> sprawdź odpowiedź.
Rezultat: mniejsze ryzyko przejęcia kontekstu.
Zabezpieczenie: separacja instrukcji od danych.

Ryzyka i jak je ograniczać

Ryzyko 1: Wykonanie niebezpiecznej akcji lub wyciek danych

Ryzyko: wykonanie niebezpiecznej akcji lub wyciek danych.
Jak ograniczać: separacja instrukcji od danych + filtrowanie + uprawnienia narzędzi.

Ryzyko 2: Odpowiedzi stają się nieprawdziwe

Ryzyko: odpowiedzi stają się nieprawdziwe.
Jak ograniczać: cytowanie źródeł, fact-checking, ranking źródeł.

Ryzyko 3: Trudne do wykrycia „ciche” manipulacje

Ryzyko: trudne do wykrycia „ciche” manipulacje.
Jak ograniczać: monitoring, red teaming, testy na przykładach ataków.

Mapa powiązań

Prompt injection → zbliżone zjawisko; atak często działa przez kontekst.
RAG / Data poisoning → zatrucie dokumentów i źródeł.
Guardrails → zasady ochronne.
Audit trail → ślad „skąd wzięło się to w kontekście”.
Mini-przepływ: Złośliwa treść → kontekst → model → zła odpowiedź/akcja

Diagram

flowchart LR
    A[Złośliwa lub błędna treść]
    B[Trafia do kontekstu]
    C[Model]
    D[Zła odpowiedź lub akcja]
    E[Filtry i separacja]
    A --> B --> C --> D
    B --> E --> C

Diagram pokazuje, że jedna zła treść w kontekście może wypaczyć odpowiedź modelu, dlatego potrzebne są filtry i rozdzielenie danych od instrukcji.

Dalsza lektura

ENISA - zagrożenia i dobre praktyki