Warum halluzinieren Sprachmodelle? OpenAI-Forschung

Warum halluzinieren Sprachmodelle? OpenAI-Forschung

AI Language Models Machine Learning Research

Einleitung

Sprachmodelle sind immer leistungsfähiger geworden, bleiben aber anfällig für einen entscheidenden Fehler: Halluzinationen. Dabei handelt es sich um selbstbewusste, plausibel klingende Aussagen, die sachlich falsch sind. OpenAIs aktuelles Forschungspapier „Why Language Models Hallucinate“ liefert bahnbrechende Einblicke in die Ursachen dieses Phänomens und bietet praxisnahe Lösungen. Halluzinationen sind keine zufälligen Bugs oder unvermeidbare Schwächen, sondern tatsächlich im Aufbau und Training moderner Sprachmodelle verankert. Dieses Verständnis ist für alle, die mit KI-Systemen arbeiten, essenziell, denn es zeigt: Halluzinationen sind kein rein technisches Problem – sie sind ein systemisches Problem, das in der Art und Weise wurzelt, wie wir diese Modelle trainieren, evaluieren und anreizen. Dieser Artikel fasst die wichtigsten Erkenntnisse des Papiers zusammen und erklärt, was sie für die Zukunft zuverlässiger KI-Systeme bedeuten.

Thumbnail for Did OpenAI Just Solve Hallucinations?

Halluzinationen von Sprachmodellen verstehen: Das Konfidenz-Problem

Sprachmodelle sind dafür bekannt, was Forscher „überkonfidente, plausible Falschaussagen“ nennen – Aussagen, die vernünftig klingen und mit Sicherheit vorgetragen werden, aber tatsächlich falsch sind. Das unterscheidet sich grundlegend von einfachen Fehlern. Ein Modell, das bei Unsicherheit „Ich bin mir nicht sicher“ sagt, verhält sich anders als eines, das etwas Falsches selbstbewusst behauptet. Das Problem: Wenn ein Modell etwas falsch macht und dabei vollkommen überzeugt wirkt, ist es extrem schwer, ihm in irgendeinem Kontext zu vertrauen. Nutzer können akkurate und halluzinierte Informationen nicht leicht unterscheiden, was den Nutzen des gesamten Systems untergräbt. Besonders problematisch ist das in Bereichen wie medizinischer Diagnostik, juristischer Recherche oder Finanzanalyse, wo falsche Informationen mit großer Überzeugung gravierende Folgen haben können. Die Herausforderung ist nicht nur, dass Modelle manchmal Fehler machen – sondern dass sie Fehler machen und dabei völlig überzeugt erscheinen.

Der Ursprung dieses Problems liegt darin, zu verstehen, wann Halluzinationen im Entwicklungsprozess der Modelle entstehen. Es ist verlockend anzunehmen, dass Halluzinationen hauptsächlich auf Fehler in den Trainingsdaten zurückzuführen sind, aber die Realität ist komplexer und grundlegender. Selbst wenn es möglich wäre, ein vollkommen sauberes Trainingsdatenset ohne jegliche Fehler oder Ungenauigkeiten zu erstellen – was theoretisch unmöglich ist – würden Halluzinationen dennoch auftreten. Denn das Problem liegt nicht nur im Gelernten der Modelle, sondern auch darin, wie Modelle trainiert werden und welche Ziele sie optimieren sollen. Der Trainingsprozess selbst, mit seinen Rückmeldungsmechanismen und Belohnungsstrukturen, fördert aktiv genau das Verhalten, das zu Halluzinationen führt.

Das Trainingsdaten-Problem: Warum perfekte Daten nicht ausreichen

Beim Training lernen Sprachmodelle aus riesigen Textsammlungen, die zwangsläufig Fehler, Ungenauigkeiten und Halbwahrheiten enthalten. Ein Modell, das mit Wikipedia, Büchern, Artikeln und Webinhalten trainiert wird, nimmt nicht nur richtige Informationen auf, sondern auch die Fehler und Falschaussagen in diesen Quellen. Wenn 20% der Geburtsdaten nur einmal in den Trainingsdaten vorkommen, halluziniert das Modell bei etwa 20% der dazugehörigen Anfragen, weil es diese Fakten nicht ausreichend sicher gelernt hat. Das scheint eine offensichtliche Ursache für Halluzinationen zu sein und ist sicherlich ein Faktor, aber nicht der Hauptgrund.

Das größere Problem ist, dass selbst mit fehlerfreien Trainingsdaten die bei der Modell-Optimierung angestrebten Ziele weiterhin zu Halluzinationen führen würden. Das ist eine entscheidende Erkenntnis, die unseren Blick auf das Problem verändert. Die Trainingsziele – also die Art, wie Modelle daraufhin bewertet werden, ob sie gute oder schlechte Antworten geben – sind grundsätzlich nicht auf die Reduktion von Halluzinationen ausgerichtet. Während des Trainings lernen Modelle, spezifische Metriken und Belohnungssignale zu optimieren, und diese Signale begünstigen oft selbstbewusstes Raten gegenüber ehrlicher Unsicherheit. Das Modell lernt, dass eine konkrete, selbstbewusste Antwort höher belohnt wird als das Eingeständnis von Nichtwissen. So entsteht eine Anreizstruktur, in der Halluzinationen aus Sicht des Modells zu einer rationalen Strategie werden.

Die Asymmetrie zwischen Generierung und Verifikation

Eine der wichtigsten Erkenntnisse aus OpenAIs Forschung ist, dass das Generieren von gültigen Antworten deutlich schwieriger ist als das Verifizieren, ob eine Antwort gültig ist. Diese Asymmetrie ist der Schlüssel zum Verständnis, warum Halluzinationen entstehen. Wer eine Antwort überprüfen soll – also feststellen, ob eine Aussage richtig oder falsch ist – hat eine viel einfachere Aufgabe. Man kann Fakten nachschlagen, Widersprüche suchen und Konsistenz prüfen. Wer jedoch eine Antwort aus dem Nichts generieren muss, muss nicht nur die richtige Antwort produzieren, sondern auch alle potentiell falschen Antworten vermeiden – und davon gibt es meist deutlich mehr als richtige. Für die meisten Fragen gibt es weit mehr falsche als richtige Antworten, was die Generierungsaufgabe grundsätzlich schwerer macht als die Verifikation.

Diese Asymmetrie erklärt, warum mehrere KI-Agenten im Team in der Regel bessere Ergebnisse liefern als ein einzelner Agent. Prüft ein Agent die Ausgabe eines anderen, übernimmt er die (einfachere) Verifikationsaufgabe. Daher erleben Nutzer oft, dass ein Sprachmodell auf die Anweisung „Nein, das stimmt nicht. Korrigiere das.“ mit einer besseren Antwort reagiert. Das Modell befindet sich nun im Verifikationsmodus – es überprüft seine vorherige Antwort und generiert eine Alternative – statt eine Antwort von Grund auf neu zu erstellen. Diese Erkenntnis hat tiefgreifende Auswirkungen darauf, wie wir KI-Systeme gestalten und deren Zuverlässigkeit verbessern können.

Die Multiple-Choice-Prüfungs-Analogie: Warum Modelle lieber raten

Das Paper verwendet eine einleuchtende Analogie, um zu erklären, warum Sprachmodelle halluzinieren: Ihr Verhalten ähnelt dem von Schülern beim Multiple-Choice-Test, wenn sie unsicher sind. Bei einem Test mit vier Antwortmöglichkeiten hat man bei Nichtwissen eine 25%ige Chance, durch Raten richtig zu liegen. Wer sich enthält – also die Frage offen lässt oder „Ich weiß es nicht“ sagt –, bekommt garantiert null Punkte. Bei einem binären Bewertungssystem, das eine richtige Antwort mit einem Punkt und eine Enthaltung mit null Punkten bewertet, maximiert das Raten die erwartete Punktzahl. Genau das lernen Sprachmodelle beim Training.

Wenn Modelle unsicher sind, lernen sie zu „bluffen“ – also lieber eine konkrete, selbstbewusste Antwort zu geben, statt Unsicherheit zuzugeben. Diese Bluffs sind meist sehr spezifisch und selten vage. Ein Modell sagt eher „30. September“ als „irgendwann im Herbst“, wenn es das Datum nicht kennt. Diese Spezifität ist selbst eine Form der Halluzination, weil sie falsche Sicherheit vermittelt. Das Modell hat gelernt, dass konkrete, selbstbewusste Antworten höher belohnt werden als vorsichtige oder unsichere Aussagen. Dieses Verhalten wird durch die Bewertungsmetriken verstärkt, mit denen die Leistung von Modellen geprüft wird. Die meisten Benchmarks für Sprachmodelle – darunter GPQA, MMLU Pro und Math – verwenden binäre Bewertungsschemata, die standardisierten menschlichen Prüfungen ähneln. Sie belohnen korrekte Antworten und bestrafen falsche, aber sie honorieren keine Enthaltung oder Unsicherheitsbekundung. Nur Benchmarks wie WildBench rechnen „Ich weiß es nicht“-Antworten an – und bemerkenswerterweise verhalten sich Modelle auf diesen Benchmarks anders.

Wie Reinforcement Learning Halluzinationen verstärkt

Die Post-Training-Phase, in der Modelle mithilfe von Reinforcement Learning und anderen Techniken nachgeschärft werden, soll Halluzinationen eigentlich verringern. Die Forschung zeigt jedoch, dass Reinforcement Learning Modelle in die falsche Richtung drängen kann. Während des Post-Trainings werden Modelle typischerweise dafür belohnt, hilfreich, entschlossen und selbstbewusst zu sein. Das sind zwar in vielen Kontexten wünschenswerte Eigenschaften, können aber auf Kosten von Genauigkeit und Kalibrierung gehen. Kalibrierung bedeutet, dass die vom Modell angegebene Sicherheit mit seiner tatsächlichen Genauigkeit übereinstimmt. Ein gut kalibriertes Modell, das 70% Sicherheit angibt, sollte etwa in 70% der Fälle richtig liegen. Ein Modell mit 80% Konfidenz sollte etwa 80% richtige Antworten liefern.

Was beim Reinforcement Learning passiert: Diese Kalibrierung bricht zusammen. Ein Grundmodell kann noch recht gut kalibriert sein, sodass Sicherheit und Genauigkeit ungefähr übereinstimmen. Nach dem Reinforcement Learning wird das Modell jedoch überkonfident. Es kann dann z. B. 80% Konfidenz angeben, aber nur in 45% der Fälle wirklich richtig liegen. Das liegt daran, dass Reinforcement Learning das Modell dazu bringt, hilfreicher und entschlossener zu sein – was sich in übermäßiger Sicherheit äußert. Das Modell lernt, dass Unsicherheit bestraft wird, während selbstbewusste Antworten – selbst wenn sie manchmal falsch sind – belohnt werden. Das ist ein grundlegendes Problem in der aktuellen Ausbildung von Sprachmodellen und erfordert systemische Veränderungen.

Die Rolle der Evaluationsmetriken bei der Verstetigung von Halluzinationen

Das Halluzinationsproblem ist nicht nur ein Trainingsproblem, sondern auch ein Evaluationsproblem. Die Benchmarks zur Leistungsmessung von Sprachmodellen verstärken häufig genau die Verhaltensweisen, die zu Halluzinationen führen. Schaut man sich die wichtigsten Benchmarks an – GPQA, MMLU Pro, Wildbench, Math und SWEBench – nutzen fast alle binäre Bewertung: Volle Punktzahl für richtige, null Punkte für falsche Antworten. Noch wichtiger: In der Regel gibt es keine Punkte für Enthaltung oder ein „Ich weiß es nicht“. Das führt zu einer Diskrepanz zwischen dem, was gemessen wird, und dem, was wir eigentlich wollen.

Der einzige große Benchmark, der nicht rein binär bewertet und „Ich weiß es nicht“-Antworten anrechnet, ist WildBench. Das ist ein bedeutender Unterschied, denn dadurch werden Modelle nach einer Metrik bewertet, die Unsicherheit nicht bestraft. Werden Modelle nach Metriken trainiert und bewertet, die selbstbewusste Antworten gegenüber ehrlicher Unsicherheit bevorzugen, priorisieren sie Sicherheit gegenüber Genauigkeit. Das ist ein systemisches Problem, das das gesamte Feld betrifft. Benchmark-Ersteller, Modellentwickler und Forscher tragen alle zu diesem Problem bei, indem sie Evaluationsmetriken nutzen, die Enthaltung nicht ausreichend berücksichtigen. Die Lösung erfordert abgestimmte Änderungen in der gesamten Branche, um Benchmarks und Bewertungspraktiken zu aktualisieren.

FlowHunts Ansatz für zuverlässige KI-Automatisierung

Beim Aufbau KI-gestützter Workflows und Automatisierungssysteme ist Zuverlässigkeit entscheidend. FlowHunt erkennt an, dass Halluzinationen und Modellunsicherheit zentrale Herausforderungen sind, die auf Systemebene adressiert werden müssen. Statt sich auf die Ausgabe eines einzelnen Modells zu verlassen, integriert FlowHunts Architektur mehrere Verifikationsschichten und Konfidenzschwellen. Dieser Ansatz spiegelt den Forschungsbefund wider, dass Überprüfung einfacher und zuverlässiger ist als Generierung. Durch Systeme, in denen KI-Agenten die Ausgaben anderer Agenten prüfen, reduziert FlowHunt die Wahrscheinlichkeit, dass Halluzinationen automatisierte Workflows durchdringen.

Darüber hinaus ermöglicht die FlowHunt-Plattform es Nutzern, Konfidenzschwellen für unterschiedliche Aufgabenarten festzulegen. Für Content-Erstellung, Recherche- und Analyse-Workflows kann vorgegeben werden, dass das System nur Ergebnisse mit ausreichender Konfidenz akzeptiert – oder unsichere Ausgaben zur menschlichen Prüfung kennzeichnet. Das entspricht der Forschungsempfehlung, dass Modelle bei zu geringer Sicherheit auf eine Antwort verzichten sollten. Indem diese Prinzipien in die Plattform integriert werden, unterstützt FlowHunt Unternehmen dabei, zuverlässige KI-Workflows zu schaffen, die nicht einfach nur möglichst viel Output erzeugen, sondern vertrauenswürdige Ergebnisse liefern.

Die Lösung: Konfidenzschwellen und Belohnung für Enthaltung

OpenAIs Forschung schlägt eine einfache, aber wirkungsvolle Lösung für das Halluzinationsproblem vor: Implementierung von Konfidenzschwellen und Belohnung für Enthaltung bei Unsicherheit. Statt Modelle zu zwingen, immer eine Antwort zu liefern, soll es akzeptabel – ja sogar belohnt werden – wenn Modelle „Ich weiß es nicht“ sagen. Das erfordert Änderungen auf mehreren Ebenen: im Training der Modelle, in ihrer Bewertung und in der Gestaltung der Systeme, die sie nutzen.

Die praktische Umsetzung ist elegant in ihrer Einfachheit. Im Post-Training können Modelle so trainiert werden, dass sie nur dann antworten, wenn ihre Konfidenz einen bestimmten Schwellenwert – z. B. 75% – überschreitet. Liegt die Konfidenz darunter, sollen sie mit „Ich weiß es nicht“ oder ähnlichen Unsicherheitsbekundungen reagieren. Das kann über die Belohnungssignale im Reinforcement Learning verstärkt werden. Statt des derzeitigen binären Systems, das richtige Antworten belohnt und falsche bestraft, wäre ein besseres System: +1 für richtig, 0 für „Ich weiß es nicht“, und -1 für falsch. Das schafft die richtigen Anreize: Richtige Antworten werden weiterhin belohnt, aber falsche werden stärker bestraft als Enthaltungen, die neutral bewertet werden.

Wichtig ist: Dieser Ansatz erfordert weder perfekte Daten noch perfekte Modelle. Er funktioniert, weil er die Anreize des Modells mit dem in Einklang bringt, was wir tatsächlich wollen: zuverlässige Informationen bei Sicherheit und ehrliche Unsicherheit, wenn das Modell nicht sicher ist. Das Modell lernt, dass die beste Strategie nicht das Bluffen oder Halluzinieren ist, sondern präzise Informationen zu liefern, wenn möglich, und Unsicherheit zuzugeben, wenn nötig. Das ist ein ehrlicheres und letztlich nützlicheres Verhalten als das aktuelle selbstbewusste Raten.

Benchmark-Reform: Das fehlende Puzzleteil

Damit diese Lösung im großen Maßstab funktioniert, müssen Benchmarks aktualisiert werden, um Enthaltung anzurechnen. Wenn Modelle darauf trainiert werden, sich bei Unsicherheit zu enthalten, aber dann auf Benchmarks bewertet werden, die Enthaltung bestrafen, werden sie ihr Training ignorieren und wieder zum Bluffen übergehen. Deshalb ist eine Reform der Benchmarks unerlässlich. Benchmark-Ersteller sollten Bewertungssysteme einführen, die richtige Antworten belohnen, für „Ich weiß es nicht“-Antworten neutral oder positiv bewerten und falsche Antworten bestrafen. Das könnte so aussehen: +1 für richtig, 0 für „Ich weiß es nicht“, -1 für falsch.

Die gute Nachricht ist: Diese Veränderung beginnt bereits. Laut Berichten implementiert GPT-5 dieses Verhalten bereits. Wird das Modell mit Fragen konfrontiert, bei denen es unsicher ist, antwortet es nach Überlegung manchmal mit „Ich weiß es nicht“ statt mit einer möglicherweise falschen, aber selbstbewussten Antwort. Das signalisiert einen Wandel in der Ausbildung von Modellen und in den belohnten Verhaltensweisen. Wenn immer mehr Modelle diesen Ansatz übernehmen und Benchmarks entsprechend aktualisiert werden, sollte es zu einer deutlichen Reduktion von Halluzinationen kommen.

Auswirkungen auf die Praxis und Reaktion der Branche

Die Bedeutung dieser Forschung geht weit über das akademische Interesse hinaus. In der Praxis haben Halluzinationen reale Konsequenzen. Ein Modell, das falsche medizinische Informationen, juristischen Rat oder Finanzempfehlungen selbstbewusst liefert, kann erheblichen Schaden anrichten. Wenn wir verstehen, dass Halluzinationen nicht unvermeidlich, sondern das Ergebnis spezifischer Trainings- und Bewertungspraktiken sind, können gezielte Änderungen zur Reduktion vorgenommen werden. Diese Forschung bietet eine klare Roadmap für diese Veränderungen.

Die Reaktion der führenden KI-Labore ist ermutigend. Anthropic hat in eigenen Untersuchungen, wie Sprachmodelle intern funktionieren, ähnliche Probleme festgestellt und ergänzende Lösungen vorgeschlagen. Sie haben beobachtet, dass Modelle eine Art „Momentum“ haben, komplette und selbstbewusste Antworten zu liefern, selbst bei Unsicherheit. Dieses Momentum ist in die Architektur und den Trainingsprozess eingebaut. Durch dieses Verständnis können Maßnahmen entwickelt werden, um diesem Momentum entgegenzuwirken und ehrliche Unsicherheitsäußerungen zu fördern. Die Konvergenz der Forschungsergebnisse mehrerer Labore deutet darauf hin, dass sich das Feld auf Problem und Lösung zunehmend einigt.

Beschleunigen Sie Ihren Workflow mit FlowHunt

Erleben Sie, wie FlowHunt Ihre KI-Inhalte und SEO-Workflows automatisiert – von Recherche und Contenterstellung bis hin zu Veröffentlichung und Analyse – alles an einem Ort. Bauen Sie zuverlässige, auf Halluzinationen sensibilisierte KI-Automatisierung mit integrierter Konfidenz-Kalibrierung.

Verhaltenskalibrierung: Was wirklich zählt messen

Über die einfache Einführung von Konfidenzschwellen hinaus bringt die Forschung das Konzept der Verhaltenskalibrierung ein. Hierbei wird nicht nur die Wahrscheinlichkeitsverteilung der Modellausgaben geprüft. Verhaltenskalibrierung bedeutet, zu testen, ob die vom Modell angegebene Sicherheit tatsächlich mit seiner Genauigkeit übereinstimmt. Liegt das Modell bei 50% Konfidenz in 50% der Fälle richtig? Bei 90% Konfidenz in 90% der Fälle? Nur so lässt sich feststellen, ob ein Modell ehrlich und zuverlässig agiert.

Das Testen der Verhaltenskalibrierung verlangt einen anderen Bewertungsansatz als klassische Benchmarks. Statt nur die Gesamtgenauigkeit zu messen, muss die Genauigkeit auf unterschiedlichen Konfidenzniveaus erfasst werden. So wird sichtbar, ob ein Modell gut kalibriert oder überkonfident ist. Ein Modell kann eine hohe Gesamtgenauigkeit haben, aber schlecht kalibriert sein – dann stimmt die Sicherheit nicht mit der tatsächlichen Leistung überein. Umgekehrt kann ein Modell mit niedrigerer Gesamtgenauigkeit gut kalibriert sein, was nützlicher ist, weil man weiß, wann man dem Modell vertrauen oder lieber nachfragen sollte.

Der Weg nach vorn: Systemischer Wandel nötig

Die Lösung des Halluzinationsproblems erfordert Veränderungen auf mehreren Ebenen der KI-Entwicklung. Erstens müssen Modellentwickler Konfidenzschwellen und Belohnung für Enthaltung im Training und Post-Training umsetzen. Zweitens müssen Benchmark-Ersteller ihre Bewertungsmetriken so anpassen, dass „Ich weiß es nicht“-Antworten honoriert und Verhaltenskalibrierung gemessen wird. Drittens müssen Organisationen, die KI-Systeme einsetzen, ihre Workflows so gestalten, dass Verifikationsschritte und menschliche Kontrolle für unsichere Ausgaben integriert werden. Viertens müssen Nutzer von KI-Systemen verstehen, dass Unsicherheitsäußerungen der Modelle ein Feature und kein Bug sind – und entsprechend wertgeschätzt werden sollten.

Dies ist kein Problem, das ein einzelner Akteur im Ökosystem lösen kann. Es erfordert Koordination und Einigkeit zwischen Modellentwicklern, Forschern, Benchmark-Erstellern und Nutzern. Die gute Nachricht: Die Lösung ist vergleichsweise unkompliziert und erfordert keine grundlegenden Durchbrüche in der KI-Architektur oder beim Training. Es geht vor allem darum, Anreize und Bewertungspraxis an das anzugleichen, was wir wirklich wollen: zuverlässige, ehrliche KI-Systeme, die ihre eigenen Wissensgrenzen kennen.

Mit wachsender Verbreitung dieser Praktiken in der Branche sollten wir eine deutliche Verbesserung der Zuverlässigkeit und Vertrauenswürdigkeit von Sprachmodellen erleben.

Fazit

OpenAIs Forschung zu Halluzinationen in Sprachmodellen zeigt: Das Problem ist nicht unvermeidlich, sondern das Ergebnis spezifischer Trainings- und Bewertungspraktiken, die selbstbewusstes Raten gegenüber ehrlicher Unsicherheit belohnen. Halluzinationen entstehen, weil Modelle auf Metriken trainiert und bewertet werden, die richtige Antworten belohnen und sowohl falsche als auch Enthaltungen gleichermaßen bestrafen – wodurch unsicheres Bluffen incentiviert wird. Die Lösung besteht darin, Konfidenzschwellen einzuführen, Modelle für „Ich weiß es nicht“-Antworten zu belohnen und Benchmarks zu aktualisieren, sodass Enthaltung angerechnet wird. Dieser systemische Wandel, der sich bereits in Modellen wie GPT-5 abzeichnet, markiert einen grundlegenden Richtungswechsel in Bezug auf KI-Zuverlässigkeit. Wenn die Anreize von Modellen mit unseren tatsächlichen Anforderungen übereinstimmen – vertrauenswürdige Informationen bei Sicherheit, ehrliche Unsicherheit bei Unwissen – können Halluzinationen deutlich reduziert und zuverlässigere KI-Systeme geschaffen werden.

Häufig gestellte Fragen

Was genau ist eine Halluzination bei Sprachmodellen?

Eine Halluzination tritt auf, wenn ein Sprachmodell plausibel klingende, aber sachlich falsche Informationen mit hoher Sicherheit erzeugt. Zum Beispiel könnte ein Modell selbstbewusst ein falsches Geburtsdatum angeben oder Fakten erfinden, die nie in seinen Trainingsdaten vorkamen. Diese Halluzinationen sind besonders problematisch, weil das Modell sie als wahr präsentiert und sie für Nutzer schwer als Fehler zu erkennen sind.

Warum raten Sprachmodelle lieber, statt 'Ich weiß es nicht' zu sagen?

Sprachmodelle werden anhand von Bewertungsmetriken trainiert, die richtige Antworten belohnen und falsche bestrafen, aber in der Regel keine Punkte für Enthaltung oder ein 'Ich weiß es nicht' vergeben. Dadurch entsteht eine Anreizstruktur wie bei Multiple-Choice-Prüfungen, bei denen Raten eine 25%ige Chance auf die richtige Antwort bietet, während Nichtantworten garantiert null Punkte bringen. Modelle lernen, dass eine selbstbewusste, konkrete Antwort – selbst wenn sie falsch ist – besser bewertet wird als das Eingeständnis von Unsicherheit.

Können Halluzinationen vollständig eliminiert werden?

Laut OpenAIs Forschung sind Halluzinationen bei Grundmodellen unvermeidlich, können aber durch gezieltes Post-Training und Evaluationsdesign deutlich reduziert werden. Die Lösung besteht darin, Konfidenzschwellen einzuführen, Modelle für Enthaltung bei Unsicherheit zu belohnen und Benchmarks so zu aktualisieren, dass 'Ich weiß es nicht'-Antworten angerechnet werden. Eine vollständige Eliminierung erfordert jedoch systemische Änderungen an Trainings- und Evaluationsmethoden.

Wie trägt Reinforcement Learning zu Halluzinationen bei?

Reinforcement Learning im Post-Training kann Modelle tatsächlich zu selbstbewussteren, aber weniger genauen Vorhersagen drängen. Die Forschung zeigt, dass Grundmodelle oft gut kalibriert sind (ihre Konfidenz entspricht ihrer Genauigkeit), aber Reinforcement Learning sie häufig überkonfident macht. Ein Modell könnte z. B. 80% Konfidenz angeben, aber nur in 45% der Fälle richtig liegen, sodass es ehrliche Unsicherheit zugunsten entschlossener, aber weniger zuverlässiger Antworten verdrängt.

Welche Rolle spielen Evaluations-Benchmarks bei Halluzinationen?

Aktuelle Benchmarks wie GPQA, MMLU Pro und Math verwenden binäre Bewertungssysteme, die Modelle nicht für ein 'Ich weiß es nicht' belohnen. Das spiegelt das Problem im Training wider – Modelle lernen, dass es am besten ist, immer eine Antwort zu geben, statt Unsicherheit einzugestehen. Benchmarks wie WildBench, die Enthaltung anrechnen, zeigen bessere Ergebnisse. Das deutet darauf hin, dass die Aktualisierung von Evaluationsmetriken entscheidend für die Reduzierung von Halluzinationen ist.

Arshia ist eine AI Workflow Engineerin bei FlowHunt. Mit einem Hintergrund in Informatik und einer Leidenschaft für KI spezialisiert sie sich darauf, effiziente Arbeitsabläufe zu entwickeln, die KI-Tools in alltägliche Aufgaben integrieren und so Produktivität und Kreativität steigern.

Arshia Kahani
Arshia Kahani
AI Workflow Engineerin

Optimieren Sie Ihre KI-Workflows mit FlowHunt

Erstellen Sie zuverlässige, KI-basierte Automatisierung mit eingebauter Konfidenz-Kalibrierung und intelligenter Fehlerbehandlung.

Mehr erfahren

Halluzination
Halluzination

Halluzination

Eine Halluzination in Sprachmodellen tritt auf, wenn KI Texte generiert, die plausibel erscheinen, aber tatsächlich falsch oder erfunden sind. Erfahren Sie mehr...

2 Min. Lesezeit
AI Hallucination +3
Verstehen und Verhindern von Halluzinationen bei KI-Chatbots
Verstehen und Verhindern von Halluzinationen bei KI-Chatbots

Verstehen und Verhindern von Halluzinationen bei KI-Chatbots

Was sind Halluzinationen bei KI, warum treten sie auf und wie kann man sie vermeiden? Erfahren Sie, wie Sie mit praxisnahen, menschzentrierten Strategien die An...

4 Min. Lesezeit
Theory Intermediate