Model collapse (zapaść modelu)
Definicja
Model collapse to zjawisko, w którym jakość modeli generatywnych pogarsza się, gdy uczą się coraz bardziej na treściach generowanych przez inne modele (a nie na wiarygodnych danych „z rzeczywistości”).
Co to w zasadzie jest?
Jeśli AI karmi się AI, może zacząć „kręcić się w kółko”. Z czasem:
- rośnie powtarzalność,
- pojawia się więcej błędów,
- znika różnorodność,
- model robi się mniej „przydatny” i bardziej „średni”.
To trochę jak wielokrotne kopiowanie tego samego dokumentu — każda kolejna kopia bywa gorsza.
Praktyczne zastosowania (konkretne scenariusze)
Scenariusz 1: W sieci przybywa tekstów AI, a modele uczą się na tych tekstach → spadek jakości języka i faktów
- Cel: w sieci przybywa tekstów AI, a modele uczą się na tych tekstach → spadek jakości języka i faktów.
- Wejście: dane treningowe i źródła syntetyczne.
- Kroki: oznacz dane AI -> kontroluj jakość -> mieszaj ze źródłami referencyjnymi.
- Rezultat: mniejsze ryzyko degradacji modelu.
- Zabezpieczenie: provenance i audyt danych.
Scenariusz 2: Automatyczne generowanie opisów produktów i ponowne trenowanie na nich
- Cel: automatyczne generowanie opisów produktów i ponowne trenowanie na nich.
- Wejście: dane treningowe i źródła syntetyczne.
- Kroki: oznacz dane AI -> kontroluj jakość -> mieszaj ze źródłami referencyjnymi.
- Rezultat: mniejsze ryzyko degradacji modelu.
- Zabezpieczenie: provenance i audyt danych.
Scenariusz 3: Bazy wiedzy zalewane treściami bez weryfikacji
- Cel: bazy wiedzy zalewane treściami bez weryfikacji.
- Wejście: dane treningowe i źródła syntetyczne.
- Kroki: oznacz dane AI -> kontroluj jakość -> mieszaj ze źródłami referencyjnymi.
- Rezultat: mniejsze ryzyko degradacji modelu.
- Zabezpieczenie: provenance i audyt danych.
Ryzyka i jak je ograniczać
Ryzyko 1: Obniżenie jakości i zaufania do treści
- Ryzyko: obniżenie jakości i zaufania do treści.
- Jak ograniczać: dbałość o źródła, oznaczanie treści AI, weryfikacja i selekcja danych.
Ryzyko 2: Wzmacnianie halucynacji i błędów
- Ryzyko: wzmacnianie halucynacji i błędów.
- Jak ograniczać: fact-checking, grounding, testy jakości.
Ryzyko 3: Trudność w rozróżnieniu, co jest „prawdziwe”
- Ryzyko: trudność w rozróżnieniu, co jest „prawdziwe”.
- Jak ograniczać: transparentność, polityka źródeł, watermarking.
Mapa powiązań
- Data poisoning → „śmieciowe” dane też psują modele.
- Fact-checking / Grounding → utrzymanie odpowiedzi w faktach.
- Transparentność → oznaczanie treści i źródeł.
- Dalsza lektura → polityka jakości danych i źródeł.
- Mini-przepływ:
Treści AI w danych → trening → spadek jakości → więcej treści AI…
Diagram
flowchart LR
A[Treści AI w danych]
B[Trening modelu]
C[Spadek jakości]
D[Więcej treści AI]
E[Kontrola źródeł]
A --> B --> C --> D --> A
C --> E
Diagram pokazuje pętlę, w której model uczy się coraz bardziej na treściach AI i przez to stopniowo traci jakość.