Prompt leakage (wyciek instrukcji)
Definicja
Prompt leakage to sytuacja, gdy model ujawnia instrukcje systemowe, zasady działania lub treści, które powinny pozostać ukryte.
Co to w zasadzie jest?
- To jak wyciągnięcie „notatek wewnętrznych” z systemu.
- Może ujawnić polityki, klucze lub fragmenty danych z kontekstu.
- Często jest skutkiem sprytnych pytań lub prompt injection.
Praktyczne zastosowania (konkretne scenariusze)
Scenariusz 1: Asystent procedur
- Cel: asystent procedur: próby „pokaż instrukcje administratora”.
- Wejście: prompt użytkownika i instrukcje systemowe.
- Kroki: wykryj próbę ujawnienia -> odmów -> zaloguj incydent.
- Rezultat: mniejsze ryzyko wycieku instrukcji.
- Zabezpieczenie: separacja instrukcji i testy red-team.
Scenariusz 2: Chat na stronie
- Cel: chat na stronie: próby wyciągnięcia listy dokumentów lub promptów.
- Wejście: prompt użytkownika i instrukcje systemowe.
- Kroki: wykryj próbę ujawnienia -> odmów -> zaloguj incydent.
- Rezultat: mniejsze ryzyko wycieku instrukcji.
- Zabezpieczenie: separacja instrukcji i testy red-team.
Typowe błędy i pułapki
- Trzymanie w promptach tajnych informacji.
- Brak testów bezpieczeństwa (red teaming).
Ryzyka i jak je ograniczać
Ryzyko 1: Wyciek reguł i danych
- Ryzyko: Wyciek reguł i danych.
- Jak ograniczać: nie umieszczaj sekretów w promptach.
Ryzyko 2: Ułatwienie ataku
- Ryzyko: Ułatwienie ataku.
- Jak ograniczać: guardrails + red teaming.
Ryzyko 3: Reputacja
- Ryzyko: Reputacja.
- Jak ograniczać: monitoring i szybkie reagowanie.
Checklista “zanim użyjesz”
- Czy w promptach nie ma sekretów?
- Czy model ma zakaz ujawniania instrukcji?
- Czy testowano ataki?
- Czy logujesz podejrzane próby?
- Czy masz procedurę incydentu?
Diagram
flowchart LR
A[Atak pytaniem]
B[Próba wycieku]
C[Blokada]
D[Odmowa]
E[Log incydentu]
A --> B --> C --> D --> E
Diagram pokazuje próbę wydobycia ukrytych instrukcji i reakcję systemu w postaci blokady i logu.
Dalsza lektura
Miejsce w mapie
- Prompt leakage → powiązane z: Prompt injection
- Prompt leakage → ogranicza: Guardrails
- Prompt leakage → testuje: Red teaming