Die Unvermeidlichkeit von Halluzinationen in KI-Modellen
Erkenntnisse des neuen OpenAI-Forschungsberichts
von Gabriele Bolek-Fügl
Vor kurzem hat OpenAI einen neuen Forschungsbericht veröffentlicht, der sehr deutlich macht: Halluzinationen bei großen Sprachmodellen werden bleiben. Nicht weil Entwickler*innen Fehler machen, sondern weil sie tief in der Architektur, dem Training und den Bewertungsverfahren von aktuell verwendeten KI-Modellen verwurzelt sind. Der Bericht „Why Language Models Hallucinate“ liefert die technische Grundlage für diese Einsicht.
Was diese Forschung konkret herausfindet
Der Kern des Berichts ist, dass Sprachmodelle manchmal bewusst falsche Aussagen machen oder genauer: sie verharren nicht im Zustand „Ich weiß es nicht“, sondern „rate“. Das überraschende daran – es wird voraussichtlich auch so bleiben. Dies hängt mit mehreren Elementen des gesamten Lernprozesses zusammen:
- Training & Evaluierung: Modelle werden mit riesigen Mengen an Texten vortrainiert, aber es wird nicht klar gekennzeichnet, was wahr und was falsch ist. Modelle lernen also, wie Sprache typischerweise verläuft (‚next-word prediction‘), aber nicht Fakten zu bestätigen oder zu widerlegen.
- Belohnungssysteme beim Testen: In den Bewertungen (Benchmark-Tests etc.) werden Modelle dann dafür belohnt, eine Antwort zu geben, auch wenn sie unsicher sind, anstatt offen zuzugeben „Ich weiß es nicht“. Denn Schweigen oder das Eingeständnis von Unwissen wird oft meist gar nicht gewertet, während ein „Raten“ zumindest die Chance auf Punkte bietet.
Das erinnert mich irgendwie an meine eigene Schulzeit. Da war es auch besser im Test “irgendeine” Antwort zu geben und zumindest auf Teilpunkte zu hoffen. - Statistische Grundlagen: Der Bericht argumentiert weiter, dass Halluzinationen strukturell aus Fehlern in binärer Klassifikation entstehen. Es gibt plausible Strings (Antworten), die gültig erscheinen, manchmal valide sein mögen, aber schlicht nicht wahr sind. Wenn das Modell hier nicht sicher unterscheiden kann, weil die Trainingsdaten bspw. unvollständig sind oder widersprüchliche Quellen enthalten, entstehen zwangsläufig Fehler.
Forschungsdesign in Kürze
Damit das nicht abstrakt bleibt, folgt ein Blick darauf, wie OpenAI die Untersuchung vorgenommen hat, wie und warum Halluzinationen entstehen:
- Formalisierte Modelle & theoretische Analyse
Der Bericht geht über rein empirische Beobachtungen hinaus: Er nutzt Konzepte aus der computational learning theory (z. B. aus der Theorie der binären Klassifikation), um zu zeigen, dass selbst unter sehr idealisierten Bedingungen (z. B. fehlerfreie Trainingsdaten) ein gewisser Halluzinationsanteil unvermeidbar ist, weil Modelle probabilistische Vorhersagen treffen.
Solange KI-Modelle also nach diesem Grundprinzip arbeiten, wird es immer eine Restwahrscheinlichkeit geben, dass die gewählte Fortsetzung nicht der Realität entspricht. Halluzinationen sind daher kein vorübergehender “Bug”, sondern ein inhärentes Nebenprodukt dieser verwendeten Methodik – ein systemimmanentes “Feature”, das sich nie vollständig ausmerzen lässt. - Empirische Beispiele & Benchmarks
Parallel wurden realistische Tests verwendet, z. B. einfache Fakten-check-Aufgaben. Das sind Fragen, deren Antworten öffentlich bekannt, aber nicht in jedem Fall sauber reproduzierbar sind.
Beispiel: Fragen nach dem Geburtstag einer bekannten Person, wobei in verschiedenen Durchgängen inkonsistente falsche Daten erzeugt wurden – selbst wenn die Frage nur beantwortet werden sollte, wenn das Modell sich sicher ist. - Untersuchung der Bewertungs-/Belohnungsmechanismen
Wie werden Modelle beurteilt? Welche Metriken zählen? Hier beschreibt der Bericht, wie bestehende Benchmarks und Leaderboards sich oft nur auf Trefferquote (Accuracy) fokussieren und wie Modelle dadurch „lernen“, lieber zu raten als zu schweigen.
Der Bericht schlägt vor, Bewertungsmethoden so zu verändern, dass Unsicherheit und „Nichtwissen“ belohnt werden und nicht nur richtige Antworten.
Warum halluzinieren also technisch verankert ist
Wenn man all das zusammennimmt, ergibt sich folgendes Bild:
- Die Modelle wurden dafür entwickelt, sprachlich kohärent zu sein, plausible Fortsetzungen zu liefern und nicht primär dafür, die Wahrheit zu garantieren.
- Selbst mit perfekt kuratierten Trainingsdaten und großem Modellumfang gibt es Fakten, die kaum oder nur einmal in diesen Daten enthalten sind („Low-frequency facts“), oder solche, die sich ändern. Modelle haben keinen direkten Zugriff darauf, was „gerade aktuell wahr“ ist, und schlagen daher das vor, was wahrscheinlich ist.
- Bewertungsanreize und Trainingsziele verstärken das Rate-Verhalten, weil „keine Antwort“ oder „Unsicherheit“ oft nicht als Erfolg gewertet wird.
FAZIT
Solange KI-Modelle so konstruiert sind, dass sie Vorhersagen basierend auf Sprachmustern erstellen und die Benotung darauf basiert, wie oft sie richtig liegen, wird eine gewisse Rate an Halluzinationen bestehen bleiben.
Wenn die Hersteller also Fortschritte anpreisen oder Hoffnungen auf eine absolut fehlerfreie KI schüren, sollte man aufmerksam bleiben. In der Realität zeigt sich, dass zwar die Häufigkeit von Halluzinationen technisch reduziert werden kann, Unsicherheiten transparenter dargestellt werden könnten und Modelle so kalibriert werden können, dass sie besser wissen, wenn sie etwas nicht wissen. Aber ein tieferes, vollständiges Verschwinden der Halluzination ist nach heutigem Stand der Forschung bei den derzeit eingesetzten Methoden kein realistisches Ziel.
Details unter: https://openai.com/de-DE/index/why-language-models-hallucinate/




