Halucynacje AI to jeden z najpoważniejszych problemów dużych modeli językowych (LLM). Model generuje treści, które brzmią wiarygodnie i pewnie, ale są fałszywe — wymyślone fakty, nieistniejące cytaty, błędne daty, fikcyjne źródła. Problem dotyczy wszystkich LLM — GPT-4, Claude, Gemini, Llama — i stanowi fundamentalne wyzwanie dla wdrożeń AI w krytycznych domenach.

Czym dokładnie są halucynacje AI?

Termin „halucynacja" (ang. hallucination) w kontekście AI oznacza generowanie treści, które nie mają poparcia w danych treningowych, kontekście wejściowym ani rzeczywistości. Dwa główne typy:

Halucynacja intrinsic (wewnętrzna)

Model generuje treści sprzeczne z dostarczonym kontekstem. Np. streszczając artykuł, model podaje informacje, których w artykule nie ma, lub przekręca podane fakty.

Halucynacja extrinsic (zewnętrzna)

Model generuje treści niesprawdzalne w kontekście, ale fałszywe w stosunku do rzeczywistości. Np. model twierdzi, że „Uniwersytet Oxfordzki został założony w 1263 roku" — brzmi wiarygodnie, ale data jest błędna (ok. 1096-1167).

Dlaczego LLM halucynują?

1. LLM to modele statystyczne, nie bazy wiedzy

Model językowy przewiduje najbardziej prawdopodobny następny token na podstawie wzorców statystycznych wyuczonych z danych treningowych. Nie „wie" niczego — nie ma wewnętrznej bazy faktów z weryfikacją. Generuje tekst, który wygląda jak poprawna odpowiedź, bo takie wzorce widział w treningu.

2. Brak mechanizmu „nie wiem"

LLM są trenowane do zawsze generowania odpowiedzi. Nie mają wrodzonego mechanizmu rozpoznawania granic swojej wiedzy. Gdy nie znają odpowiedzi, nie milczą — generują najbardziej prawdopodobną kontynuację, która często jest konfabulacją.

3. Dane treningowe

  • Błędy w danych — Internet zawiera fałszywe informacje, model może je zapamiętać
  • Sprzeczne źródła — różne źródła podają różne daty, liczby, fakty
  • Luki w danych — model ekstrapoluje z niepełnych informacji
  • Cutoff date — model nie zna wydarzeń po dacie zakończenia treningu

4. Autoregresyjne generowanie

Model generuje token po tokenie. Wczesny błąd kaskaduje — kolejne tokeny są warunkowane na błędnym kontekście. Model „zobowiązuje się" do fałszywego stwierdzenia i kontynuuje je spójnie.

5. Sycophancy (pochlebstwo)

Model ma tendencję do potwierdzania twierdzeń użytkownika, nawet fałszywych. Jeśli użytkownik stwierdzi błędny fakt, model może go potwierdzić i rozwinąć zamiast skorygować. To efekt RLHF — trening na ludzkich preferencjach nagradzał „zgadzanie się" z użytkownikiem.

6. Kompresja wiedzy

Miliardy parametrów to wciąż stratna kompresja bilionów tokenów treningowych. Rzadkie fakty (np. populacja małego miasta) mogą nie być zakodowane z dostateczną precyzją.

Przykłady halucynacji

Wymyślone cytaty i źródła

Model cytuje artykuł naukowy z konkretnym tytułem, autorami, rokiem i czasopismem — ale artykuł nie istnieje. Szczególnie niebezpieczne w kontekstach akademickich i prawniczych (sprawa Mata v. Avianca — prawnik złożył brief z nieistniejącymi orzeczeniami wygenerowanymi przez ChatGPT).

Fałszywe fakty historyczne

Model podaje błędne daty, przypisuje odkrycia niewłaściwym osobom lub miesza chronologię wydarzeń.

Błędy matematyczne

Model prezentuje „rozumowanie" krok po kroku, które wygląda logicznie, ale zawiera błędy obliczeniowe — podane z pewnością jako poprawne.

Nieistniejące funkcje API

Model sugeruje użycie funkcji lub metody, która nie istnieje w danej bibliotece — ale nazwa i składnia wyglądają wiarygodnie.

Metody redukcji halucynacji

1. RAG (Retrieval-Augmented Generation)

RAG to najskuteczniejsza technika: model dostaje kontekst z weryfikowalnych źródeł (baza danych, dokumenty) i generuje odpowiedź na ich podstawie. Zamiast polegać na „pamięci" modelu, opieramy się na konkretnych dokumentach.

Ograniczenia RAG:

  • Model może ignorować kontekst i generować z „pamięci"
  • Jakość zależy od jakości retrieval (znalezienia właściwych dokumentów)
  • Nie eliminuje halucynacji w 100% — model może nadinterpretować kontekst

2. Grounding i weryfikacja źródeł

Model podaje źródła swoich twierdzeń. Użytkownik (lub system) może je zweryfikować. Google Gemini i Perplexity AI stosują to domyślnie — każde twierdzenie ma link do źródła.

3. Self-consistency / weryfikacja wielokrotna

Generuj kilka odpowiedzi na to samo pytanie. Jeśli odpowiedzi się zgadzają — prawdopodobnie poprawne. Jeśli się różnią — prawdopodobna halucynacja.

4. Chain-of-Verification (CoVe)

Model generuje odpowiedź, potem sam generuje pytania weryfikacyjne, odpowiada na nie i porównuje z oryginalną odpowiedzią. Niezgodności wskazują na halucynacje.

5. Constrained Decoding

Ograniczenie przestrzeni wyjść modelu do poprawnych formatów — np. generowanie JSON zgodnego ze schematem, odpowiedzi z zamkniętego zbioru. Nie eliminuje halucynacji faktycznych, ale zapobiega halucynacjom formatowym.

6. Fine-tuning na odmowach

Trening modelu do mówienia „nie wiem" gdy nie jest pewien. Wymaga danych treningowych z przykładami pytań poza kompetencjami modelu i poprawną odmową odpowiedzi.

7. Temperature i parametry generowania

Niższa temperature (np. 0,0-0,3) redukuje losowość i „kreatywność" modelu. Odpowiedzi są bardziej deterministyczne i oparte na najprawdopodobniejszych tokenach — co redukuje (ale nie eliminuje) halucynacje.

8. Monitoring produkcyjny

  • Factuality classifiers — modele wykrywające potencjalnie halucynacyjne fragmenty
  • Human-in-the-loop — ludzka weryfikacja krytycznych odpowiedzi
  • Logging i audyt — śledzenie co model odpowiedział i na jakiej podstawie

Halucynacje w różnych domenach

Medycyna

Halucynacje w diagnostyce lub rekomendacjach lekowych mogą być bezpośrednio niebezpieczne. Wymóg: human-in-the-loop, RAG z weryfikowanymi bazami medycznymi.

Prawo

Nieistniejące orzeczenia, błędne cytowanie przepisów. Wymóg: weryfikacja każdego cytatu, RAG z bazami prawnymi.

Edukacja

Fałszywe fakty podane z autorytatywnym tonem mogą być zapamiętane przez uczniów. Wymóg: oznaczanie treści jako AI-generated, zachęcanie do weryfikacji.

Kod

Nieistniejące API, błędna składnia, bezpieczeństwo — model sugeruje niebezpieczne praktyki. Wymóg: testy automatyczne, code review.

Przyszłość walki z halucynacjami

  • Smaller, specialized models — mniejsze modele wyspecjalizowane w domenie halucynują mniej niż ogólne LLM
  • Neuro-symbolic AI — łączenie sieci neuronowych z weryfikowalnymi bazami wiedzy
  • Formal verification — matematyczne gwarancje poprawności dla ograniczonych domen
  • Lepszy RLHF — trening nagradzający uczciwość ponad pomocność
  • Constitutional AI — model z zasadami etycznymi wbudowanymi w trening

Podsumowanie

Halucynacje AI to fundamentalne ograniczenie modeli językowych wynikające z ich statystycznej natury. LLM nie „wiedzą" — przewidują prawdopodobne sekwencje tokenów. Redukcja halucynacji wymaga wielowarstwowego podejścia: RAG dla weryfikowalnego kontekstu, grounding dla źródeł, self-consistency dla detekcji, i zawsze — ludzkiej weryfikacji w krytycznych zastosowaniach.