Model collapse (zapaść modelu)

Definicja

Model collapse to zjawisko, w którym jakość modeli generatywnych pogarsza się, gdy uczą się coraz bardziej na treściach generowanych przez inne modele (a nie na wiarygodnych danych „z rzeczywistości”).

Co to w zasadzie jest?

Jeśli AI karmi się AI, może zacząć „kręcić się w kółko”. Z czasem:

rośnie powtarzalność,
pojawia się więcej błędów,
znika różnorodność,
model robi się mniej „przydatny” i bardziej „średni”.

To trochę jak wielokrotne kopiowanie tego samego dokumentu — każda kolejna kopia bywa gorsza.

Praktyczne zastosowania (konkretne scenariusze)

Scenariusz 1: W sieci przybywa tekstów AI, a modele uczą się na tych tekstach → spadek jakości języka i faktów

Cel: w sieci przybywa tekstów AI, a modele uczą się na tych tekstach → spadek jakości języka i faktów.
Wejście: dane treningowe i źródła syntetyczne.
Kroki: oznacz dane AI -> kontroluj jakość -> mieszaj ze źródłami referencyjnymi.
Rezultat: mniejsze ryzyko degradacji modelu.
Zabezpieczenie: provenance i audyt danych.

Scenariusz 2: Automatyczne generowanie opisów produktów i ponowne trenowanie na nich

Cel: automatyczne generowanie opisów produktów i ponowne trenowanie na nich.
Wejście: dane treningowe i źródła syntetyczne.
Kroki: oznacz dane AI -> kontroluj jakość -> mieszaj ze źródłami referencyjnymi.
Rezultat: mniejsze ryzyko degradacji modelu.
Zabezpieczenie: provenance i audyt danych.

Scenariusz 3: Bazy wiedzy zalewane treściami bez weryfikacji

Cel: bazy wiedzy zalewane treściami bez weryfikacji.
Wejście: dane treningowe i źródła syntetyczne.
Kroki: oznacz dane AI -> kontroluj jakość -> mieszaj ze źródłami referencyjnymi.
Rezultat: mniejsze ryzyko degradacji modelu.
Zabezpieczenie: provenance i audyt danych.

Ryzyka i jak je ograniczać

Ryzyko 1: Obniżenie jakości i zaufania do treści

Ryzyko: obniżenie jakości i zaufania do treści.
Jak ograniczać: dbałość o źródła, oznaczanie treści AI, weryfikacja i selekcja danych.

Ryzyko 2: Wzmacnianie halucynacji i błędów

Ryzyko: wzmacnianie halucynacji i błędów.
Jak ograniczać: fact-checking, grounding, testy jakości.

Ryzyko 3: Trudność w rozróżnieniu, co jest „prawdziwe”

Ryzyko: trudność w rozróżnieniu, co jest „prawdziwe”.
Jak ograniczać: transparentność, polityka źródeł, watermarking.

Mapa powiązań

Data poisoning → „śmieciowe” dane też psują modele.
Fact-checking / Grounding → utrzymanie odpowiedzi w faktach.
Transparentność → oznaczanie treści i źródeł.
Dalsza lektura → polityka jakości danych i źródeł.
Mini-przepływ: Treści AI w danych → trening → spadek jakości → więcej treści AI…

Diagram

flowchart LR
    A[Treści AI w danych]
    B[Trening modelu]
    C[Spadek jakości]
    D[Więcej treści AI]
    E[Kontrola źródeł]
    A --> B --> C --> D --> A
    C --> E

Diagram pokazuje pętlę, w której model uczy się coraz bardziej na treściach AI i przez to stopniowo traci jakość.

Dalsza lektura

NIST — podejście do jakości i ryzyka AI (nist.gov)