Darstellung
LLM Halluzinationen — Forschungsüberblick
Halluzinationen sind eines der größten Herausforderungen beim Einsatz von Large Language Models (LLMs) in der Praxis. Ein LLM „halluziniert", wenn es Antworten generiert, die plausibel klingen, aber faktisch falsch sind — erfundene Zahlen, nicht existierende Quellen oder schlicht falsche Aussagen.
Für Unternehmen, die KI in der Kundenkommunikation einsetzen, ist das ein kritisches Problem. Dieser Überblick fasst die fünf wichtigsten aktuellen Forschungsansätze zusammen und zeigt, wie VIA diese in der Praxis umsetzt.
Die 5 wichtigsten Ansätze
1. RAG und Self-RAG (Retrieval-Augmented Generation)
RAG erweitert das Sprachmodell um eine externe Wissensdatenbank. Statt sich auf das Training zu verlassen, sucht das Modell vor jeder Antwort relevante Dokumente und stützt seine Antwort auf diese Quellen.
Self-RAG geht einen Schritt weiter: Das Modell entscheidet selbst, ob es externe Quellen braucht, und prüft anschließend, ob seine Antwort durch die gefundenen Dokumente gestützt wird.
- Effekt: Reduktion der Halluzinationsrate um 30–50 % gegenüber reinen LLM-Antworten
- Quelle: Asai et al. (2023) — „Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection"
2. F-DPO (Factuality-aware Direct Preference Optimization)
Entwickelt im Umfeld von Alibabas Qwen-Modellreihe, trainiert F-DPO das Modell gezielt auf faktische Korrektheit. Statt allgemein „hilfreiche" Antworten zu bevorzugen, lernt das Modell, faktisch korrekte Antworten systematisch höher zu bewerten.
- Effekt: Bis zu 40 % weniger faktische Fehler bei Open-Domain-Fragen
- Relevanz: Zeigt, dass chinesische Modelle (Qwen 2.5, DeepSeek) bei Halluzinationsreduktion teils gleichauf oder vor westlichen Modellen liegen
3. MemoryOS — Gedächtnis-Architektur für LLMs
MemoryOS simuliert ein menschenähnliches Gedächtnissystem für LLMs mit drei Ebenen: Sensorisches Gedächtnis (kurzfristig), Arbeitsgedächtnis (aktive Verarbeitung) und Langzeitgedächtnis (persistentes Wissen).
- Effekt: Konsistentere Antworten über lange Konversationen, weniger Widersprüche
- Relevanz: Besonders relevant für Chat-Szenarien, in denen Kontext über viele Nachrichten hinweg erhalten bleiben muss
4. Circuit Tracing (Anthropic)
Anthropic hat mit Circuit Tracing einen Ansatz entwickelt, der die internen Berechnungswege eines LLMs sichtbar macht. Statt das Modell als Black Box zu behandeln, wird nachvollziehbar, warum ein Modell eine bestimmte Antwort gibt — und wo es von faktischem Wissen abweicht.
- Effekt: Ermöglicht gezielte Korrektur von Halluzinations-Pfaden
- Quelle: Anthropic Research (2025) — „Circuit Tracing: Revealing Computational Graphs in Language Models"
- Status: Forschungsstadium, noch nicht produktiv einsetzbar
5. Self-Verification und Chain-of-Verification (CoVe)
Bei Self-Verification generiert das Modell eine Antwort, erstellt daraus Prüffragen, beantwortet diese unabhängig und vergleicht die Ergebnisse. Widersprechen sich die Antworten, wird die ursprüngliche Antwort verworfen oder überarbeitet.
- Effekt: 20–30 % weniger Halluzinationen bei faktenbasierten Fragen
- Quelle: Dhuliawala et al. (2023) — „Chain-of-Verification Reduces Hallucination in Large Language Models"
Vectara Hallucination Leaderboard
Das Vectara Hallucination Leaderboard misst die Halluzinationsrate von LLMs bei Zusammenfassungsaufgaben. Niedrigere Werte bedeuten weniger Halluzinationen.
| Modell | Halluzinationsrate | Anbieter |
|---|---|---|
| GPT-4o | 1,5 % | OpenAI |
| Claude 3.5 Sonnet | 1,8 % | Anthropic |
| Gemini 1.5 Pro | 2,1 % | |
| Qwen 2.5 72B | 2,4 % | Alibaba |
| Llama 3.1 405B | 2,7 % | Meta |
| Mistral Large | 3,0 % | Mistral AI |
| DeepSeek V3 | 3,2 % | DeepSeek |
| Mistral Medium | 3,5 % | Mistral AI |
Stand: Q1 2026 — Werte können sich durch Modell-Updates ändern.
EU vs. CN vs. US — Vergleich
| Kriterium | EU | China | USA |
|---|---|---|---|
| Führende Modelle | Mistral Large/Medium | Qwen 2.5, DeepSeek V3 | GPT-4o, Claude, Gemini |
| Regulierung | EU AI Act (streng) | Interim Measures (moderat) | Keine bundesweite Regulierung |
| Datenschutz | DSGVO (streng) | PIPL (streng, aber staatlicher Zugriff) | Sektorspezifisch |
| Open Source | Mistral (teilweise) | Qwen, DeepSeek (offen) | Llama (offen), GPT (geschlossen) |
| Halluzinations-Fokus | Hoch (regulatorisch getrieben) | Hoch (Wettbewerb) | Hoch (Marktdruck) |
VIAs Ansatz
VIA kombiniert mehrere dieser Forschungsansätze in der Praxis:
ProtectedPromptBuilder
Der ProtectedPromptBuilder ist VIAs zentrale Schutzschicht gegen Halluzinationen. Er:
- Injiziert automatisch Strictness-Anweisungen in jeden Prompt
- Bindet relevante Knowledge-Base-Dokumente per RAG ein
- Verhindert Antworten außerhalb des definierten Wissensbereichs
Strictness-System
VIA bietet fünf konfigurierbare Strictness-Stufen (1–5):
- Stufe 1: Kreativ — Modell darf frei antworten
- Stufe 3: Ausgewogen — Antworten bevorzugt aus Knowledge Base, ergänzt bei Bedarf
- Stufe 5: Streng — Ausschließlich Antworten aus der Knowledge Base, keine Improvisation
Für geschäftskritische Anwendungen empfehlen wir Stufe 4 oder 5.
Weitere Schutzmaßnahmen
- PII-Scanner: Erkennt und schützt personenbezogene Daten vor Weitergabe
- Industry-Codes: Branchenspezifische Verhaltensregeln für den Bot
- Feedback-System: Falsche Antworten werden markiert und fließen in die Optimierung ein
Quellenverzeichnis
- Asai, A. et al. (2023). Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection. arXiv:2310.11511
- Dhuliawala, S. et al. (2023). Chain-of-Verification Reduces Hallucination in Large Language Models. arXiv:2309.11495
- Anthropic Research (2025). Circuit Tracing: Revealing Computational Graphs in Language Models.
- Vectara (2026). Hallucination Leaderboard. GitHub Repository.
- EU AI Act — Verordnung (EU) 2024/1689 des Europäischen Parlaments.