Przejdź do treści

Jailbreaking

Definicja

Jailbreaking to próby obejścia ograniczeń modelu, aby wykonywał działania sprzeczne z zasadami. Zwykle polega na manipulowaniu promptem i kontekstem rozmowy. To problem bezpieczeństwa w aplikacjach opartych o LLM.

Co to w zasadzie jest?

  • Użytkownik stara się „przekonać” model do złamania zasad.
  • Często wykorzystuje podstępne scenariusze i role.
  • Skuteczny jailbreaking może prowadzić do ujawnień lub ryzykownych treści.
  • Potrzebne są testy i guardrails.

Praktyczne zastosowania (konkretne scenariusze)

Scenariusz 1: Testy bezpieczeństwa asystenta

  • Cel: testy bezpieczeństwa asystenta.
  • Wejście: lista prób obejścia.
  • Kroki: test → analiza → poprawki.
  • Rezultat: większa odporność.
  • Zabezpieczenie: stały monitoring.

Scenariusz 2: Ochrona automatyzacji

  • Cel: ochrona automatyzacji.
  • Wejście: nietypowe prompty.
  • Kroki: wykrycie → blokada → eskalacja.
  • Rezultat: bezpieczne działanie.
  • Zabezpieczenie: log i alerty.

Scenariusz 3: Polityka użycia AI

  • Cel: polityka użycia AI.
  • Wejście: scenariusze ryzyk.
  • Kroki: opis zakazów → szkolenie → kontrola.
  • Rezultat: mniejsze nadużycia.
  • Zabezpieczenie: audyty.

Typowe błędy i pułapki

  • Przekonanie, że model „sam z siebie” jest bezpieczny.
  • Brak testów red teaming.
  • Brak procedury reagowania.

Ryzyka i jak je ograniczać

Ryzyko 1: Obejście zasad

  • Ryzyko: Obejście zasad.
  • Jak ograniczać: guardrails i monitoring.

Ryzyko 2: Ujawnienie danych

  • Ryzyko: Ujawnienie danych.
  • Jak ograniczać: ograniczenia dostępu i DLP.

Ryzyko 3: Treści ryzykowne

  • Ryzyko: Treści ryzykowne.
  • Jak ograniczać: filtry treści i review.

Checklista “zanim użyjesz”

  • Czy masz politykę użycia AI?
  • Czy testowałeś próby obejścia?
  • Czy logujesz podejrzane zachowania?
  • Czy masz procedurę eskalacji?
  • Czy wiesz, jakie dane są szczególnie wrażliwe?

Diagram

flowchart LR
    A[Złośliwy prompt]
    B[Próba obejścia zasad]
    C[Model]
    D[Kontrola bezpieczeństwa]
    E[Blokada]
    A --> B --> C --> D --> E

Diagram pokazuje, że jailbreaking to próba obejścia zasad systemu i wymaga blokady na etapie kontroli.

Dalsza lektura

Miejsce w mapie

Powiązane hasła