Przejdź do treści

Prompt leakage (wyciek instrukcji)

Definicja

Prompt leakage to sytuacja, gdy model ujawnia instrukcje systemowe, zasady działania lub treści, które powinny pozostać ukryte.

Co to w zasadzie jest?

To jak wyciągnięcie „notatek wewnętrznych” z systemu.
Może ujawnić polityki, klucze lub fragmenty danych z kontekstu.
Często jest skutkiem sprytnych pytań lub prompt injection.

Praktyczne zastosowania (konkretne scenariusze)

Scenariusz 1: Asystent procedur

Cel: asystent procedur: próby „pokaż instrukcje administratora”.
Wejście: prompt użytkownika i instrukcje systemowe.
Kroki: wykryj próbę ujawnienia -> odmów -> zaloguj incydent.
Rezultat: mniejsze ryzyko wycieku instrukcji.
Zabezpieczenie: separacja instrukcji i testy red-team.

Scenariusz 2: Chat na stronie

Cel: chat na stronie: próby wyciągnięcia listy dokumentów lub promptów.
Wejście: prompt użytkownika i instrukcje systemowe.
Kroki: wykryj próbę ujawnienia -> odmów -> zaloguj incydent.
Rezultat: mniejsze ryzyko wycieku instrukcji.
Zabezpieczenie: separacja instrukcji i testy red-team.

Typowe błędy i pułapki

Trzymanie w promptach tajnych informacji.
Brak testów bezpieczeństwa (red teaming).

Ryzyka i jak je ograniczać

Ryzyko 1: Wyciek reguł i danych

Ryzyko: Wyciek reguł i danych.
Jak ograniczać: nie umieszczaj sekretów w promptach.

Ryzyko 2: Ułatwienie ataku

Ryzyko: Ułatwienie ataku.
Jak ograniczać: guardrails + red teaming.

Ryzyko 3: Reputacja

Ryzyko: Reputacja.
Jak ograniczać: monitoring i szybkie reagowanie.

Checklista “zanim użyjesz”

Czy w promptach nie ma sekretów?
Czy model ma zakaz ujawniania instrukcji?
Czy testowano ataki?
Czy logujesz podejrzane próby?
Czy masz procedurę incydentu?

Diagram

flowchart LR
    A[Atak pytaniem]
    B[Próba wycieku]
    C[Blokada]
    D[Odmowa]
    E[Log incydentu]
    A --> B --> C --> D --> E

Diagram pokazuje próbę wydobycia ukrytych instrukcji i reakcję systemu w postaci blokady i logu.

Dalsza lektura

Miejsce w mapie

Prompt leakage → powiązane z: Prompt injection
Prompt leakage → ogranicza: Guardrails
Prompt leakage → testuje: Red teaming

Powiązane hasła