- FragRoger
- Posts
- Warum KI oft Dokumente falsch versteht und was das mit Halluzinationen zu tun hat
Warum KI oft Dokumente falsch versteht und was das mit Halluzinationen zu tun hat
Die technischen Gründe hinter KI-Fehlern verstehen und praktische Lösungen für bessere Dokumentenverarbeitung umsetzen.

TLDR: Grosse Sprachmodelle (LLMs) wie ChatGPT generieren Antworten probabilistisch und "halluzinieren" dabei oft – teils sogar häufiger in neueren Reasoning-Systemen. Praktische Limitierungen wie Token-Grenzen und Kontextschnitte verschlechtern die Treffsicherheit bei langen oder komplexen Dokumenten. RAG (Retrieval Augmented Generation) kann helfen, indem es Fakten aus einer Wissensbasis beilegt, aber es ist kein Allheilmittel: Halluziniert wird trotzdem.
Worin liegen die technischen Gründe, dass GPT-Modelle Dokumente oft falsch lesen
Hast du dich jemals gefragt, warum eine KI (zB ChatGPT) manchmal Inhalte aus deinen Dokumenten komplett erfindet, statt sie korrekt zu interpretieren? Diese Frustration teilen unzählige Nutzer:innen, und die Gründe dafür sind tiefgreifender, als du vielleicht denkst. Und Du würdest schon einen Unterschied merken, wenn Du zB mit ClaudeAi arbeiten würdest, aber der Reihe nach.
Die technischere Antwort (und die weniger technische folgt sogleich): Der Kern des Problems liegt in der Architektur der Sprachmodelle selbst. LLMs wie ChatGPT maximieren die Wahrscheinlichkeit des nächsten Tokens und besitzen keinen eingebauten Wahrheitsprüfer. Dadurch entstehen unvermeidbare Halluzinationen in imperfekten generativen Modellen. Aktuelle Berichte aus 2025 zeigen, dass diese Halluzinationen in neuen Reasoning-Systemen teils gestiegen sind und je nach Test 33-79% erreichen können.
Studien aus 2025 zeigen konsistent nachlassende Performance, wenn der Input von 8K auf 32K Tokens anwächst. Bei langen Kontexten identifizieren Modelle relevante Passagen schlechter, und Halluzinationsraten steigen mit der Kontextlänge. In einer Evaluation stiegen die Halluzinationsraten auf bis zu 45% bei 2000 Tokens, da Rauschen die Selektion stört.
Eine KI generiert ihre Antworten auf Basis von Wahrscheinlichkeiten im gegebenen Kontext - sie berechnet fortlaufend, welches Wort oder welche Zeichenfolge am wahrscheinlichsten folgt. Sie verfügt dabei jedoch nicht über Verstehen im menschlichen Sinn.
Die weniger technische Antwort: Stell dir vor, du fragst jemanden nach dem Inhalt eines Buchs, aber diese Person hat das Buch nie vollständig gelesen. Stattdessen schaut sie sich einzelne Sätze an und versucht zu erraten, was als nächstes kommen könnte. Genau so funktioniert ChatGPT: Es berechnet für jedes Wort die Wahrscheinlichkeit, dass es als nächstes passt - basierend auf Wahrscheinlichkeits-Mustern aus Milliarden von Textbausteinen, so genannten Tokens.
Das Problem: Die KI hat keinen "Wahrheitsprüfer" im Kopf. Sie kann nicht unterscheiden zwischen "Das steht wirklich im Dokument" und "Das klingt plausibel basierend auf ähnlichen Texten, die ich mal gesehen habe." Deshalb halluziniert sie Details, die sich richtig anhören, aber falsch sind.
Längere Dokumente überfordern das "Arbeitsgedächtnis"
Und ChatGPT hat ein begrenztes "Arbeitsgedächtnis" - etwa wie ein Mensch, der sich nur eine bestimmte Anzahl von Informationen gleichzeitig merken kann. Bei einem 50-seitigen Vertrag "vergisst" die KI wichtige Details vom Anfang, wenn sie das Ende liest. Man spricht von einem Kontextfenster.
Praktisches Beispiel: Du fragst nach Kündigungsfristen in einem Arbeitsvertrag. Die relevante Klausel steht auf Seite 3, aber die KI “konzentriert” sich gerade auf Seite 45. Sie erfindet dann eine "übliche" Kündigungsfrist, anstatt die korrekte zu finden.
Struktur geht bei der Digitalisierung verloren
Wenn deine PDF-Dokumente in Text umgewandelt werden, verschwinden wichtige strukturelle Hinweise. Tabellen werden zu wirren Textzeilen, Fussnoten landen mitten im Text, und Organigramme werden zu unverständlichen Wortlisten.
Stell dir vor, du zerreisst eine Zeitung und versuchst dann, die Schnipsel in zufälliger Reihenfolge zu lesen - so ähnlich "sieht" die KI deine Dokumente nach der Digitalisierung. Sie arbeitet in Mustern, weniger in klaren “wenn-dann-Strukturen”.
(an alle Techies die meinen Newsletter lesen, ja das ist sehr vereinfacht und simplifiziert aber ihr seht jetzt hoffentlich wenigstens, dass ich meine Newsletter noch selber schreibe).
Das Gedächtnis aus dem Training konkurriert mit deinen Dokumenten
Jetzt gibt es ein wenig Konkurrenz, denn: ChatGPT wurde mit Millionen von Texten trainiert und hat dabei Muster über "typische" Geschäftspraktiken gelernt. Wenn dein Unternehmen aber andere Prozesse hat, kann die KI ihre "Erinnerungen" über das legen, was tatsächlich in deinen Dokumenten steht.
Beispiel: Deine Firma hat eine ungewöhnliche Urlaubsregelung. Die KI "überschreibt" diese Information mit dem, was sie für "normal" oder eben antrainiert hält, weil das in ihrem Training häufiger vorkam.
Technische Grenzen werden oft verschwiegen: Moderne KI-Systeme haben stille Grenzen, die Anbieter nicht immer kommunizieren. Manche Antworten werden nach einer bestimmten Länge einfach abgeschnitten, wichtige Quellenangaben fallen weg, oder komplexe Berechnungen werden vereinfacht - ohne dass du es merkst.
Warum neuere Systeme manchmal schlechter werden
Paradoxerweise können neuere KI-Versionen, die besser in Mathematik oder logischem Denken sind, beim simplen Dokumentenlesen schlechter abschneiden. Sie sind so darauf trainiert, komplexe Schlussfolgerungen zu ziehen, dass sie auch dort "mitdenken", wo sie einfach nur abschreiben sollten.
Aktuelle Berichte aus 2025 zeigen, dass diese Halluzinationen in neuen "Reasoning"-Systemen teils gestiegen sind und je nach Test 33-79% erreichen können. Das bedeutet: Bei jeder dritten bis vierten Anfrage erfinden diese Systeme zumindest teilweise Informationen.
Tokenisierung und Strukturverlust
PDF-Dokumente, Tabellen und Fussnoten verlieren beim Linearieren ihre Struktur. Semantische Bezüge zwischen Tabellenkopf und Zellen werden "entkoppelt", was fehlerhafte Zuordnungen fördert. Um lange Dokumente handhabbar zu machen, werden sie in Segmente geschnitten - zu kleine Chunks verlieren Kontext, zu grosse verwässern Relevanzsignale.
Und dann sind oft vortrainierte "faktenhafte" Inhalte konkurrieren mit dem aktuellen Dokumenten-Kontext. Überkonfidenz in parametrisierter "Erinnerung" nennt man das und das kann mit einem Dokumentenbezug überstimmen und Fehler kaskadieren lassen, je länger die Antwort wird. Berichte aus Mai 2025 nennen sogar stille Output-Limits von rund 4’000 Tokens, die robuste Dokumentenanalyse und vollständige Zitate unterminieren.
Wie stark reduziert RAG konkrete Halluzinationen bei Dokumentenverarbeitung
Quantifizierte Effekte aus aktuellen Studien
Die Effektivität von RAG variiert erheblich, aber es gibt messbare Verbesserungen. In einer 2025er Arbeit mit HaluBench zeigt Hybrid-Retrieval (BM25 + Dense mit Rank-Fusion) die niedrigste Halluzinationsrate unter drei RAG-Varianten. Gegenüber reinem LLM-Generieren werden Halluzinationen signifikant gesenkt, wobei die Reduktion direkt mit der Retriever-Effektivität korreliert.
Aber nicht alle RAG-Implementierungen sind erfolgreich. Schwache oder nicht-passende Passagen heben den Grounding-Effekt auf. In Benchmarks ist die Halluzinationsminderung stark abhängig von der Qualität der Retriever-Komponente. Eine SemEval-2025-Studie zeigte sogar, dass das Entfernen des RAG-Teils die Leistung bei Halluzinations-Span-Detektion verbesserte, weil das Retrieval die relevanten Kontexte nicht zuverlässig traf.
-WERBUNG-
Mehr KI Kompetenz? Inkl. Kompetenznachweis? Dazu haben wir das KI-Update entwickelt, immer jeden Montag Abend für Members und völlig kostenlos jeden 2ten Montagabend zum reinschnuppern. Mehr Infos gibts auf:
Also: Wie kann ich praktisch meine Dokument-Pipeline 2025 verbessern, um Fehler zu minimieren
Strukturiere deine Dokumente für maximale KI-Tauglichkeit
Als Nutzer:In musst du verstehen: GiGo heisst Garbage In - Garbage out. Das heisst, versuch etwas Ordnung ins Chaos zu bringen.
Einheitliche Metadaten vergeben: Jedes Dokument braucht strukturierte Informationen wie Erstellungsdatum, Autor:in, Dokumententyp, Gültigkeitsdauer und Versionsnummer. Ohne diese Grundstruktur kann die ein Algorithmus oft nicht gut genug zwischen aktuellen und veralteten Informationen unterscheiden.
Semantische Segmentierung einführen: Teile deine Dokumente nicht einfach in gleichgrosse Blöcke, sondern in sinnvolle Abschnitte. Ein Vertrag sollte beispielsweise nach Klauseln getrennt werden, ein Handbuch nach Kapiteln. Tabellen und Grafiken müssen mit ihren Beschriftungen verbunden bleiben – sonst verliert der Algorithmus den Kontext.
Hierarchische Speicherstruktur aufbauen: Organisiere deine Dokumente in einer klaren Ordnerstruktur mit aussagekräftigen Namen. "Verträge_2025_Kunden" ist besser als "Ordner_123". Diese Struktur hilft der KI zu verstehen, in welchem Kontext sie suchen soll.
Baue robuste Suchsysteme auf
Hybrid-Suchsysteme implementieren: Kombiniere verschiedene Suchtechnologien. Klassische Stichwortsuche findet exakte Begriffe, während KI-basierte Suche ähnliche Konzepte erkennt. Ein Dokument über "Personalabbau" wird so auch bei einer Suche nach "Entlassungen" gefunden. Dazu gibts übrigens auch semantische KI Modelle - zB arbeitet der Kanton Zürich daran:
Intelligente Ranking-Filter einsetzen: Nicht alle Suchergebnisse sind gleich relevant. Investiere in Systeme, die automatisch bewerten, welche Dokumentenabschnitte am besten zur Anfrage passen. Ein aktueller Jahresbericht sollte höher gerankt werden als ein fünf Jahre alter Entwurf.
Kontextuelle Suche aktivieren: Die KI sollte verstehen, dass "Umsatz" in einem Finanzbericht etwas anderes bedeutet als in einem Verkaufshandbuch. Trainiere deine Systeme darauf, den Dokumententyp bei der Suche zu berücksichtigen.
Implementiere Qualitätssicherung und Nachverfolgbarkeit
Automatische Quellenangaben erzwingen: Jede KI-Antwort muss zeigen, aus welchem spezifischen Dokumentenabschnitt die Information stammt – inklusive Seitenzahl und Paragraph. Das ermöglicht schnelle Verifikation und rechtliche Absicherung.
Vertrauensscores einführen: Die KI sollte transparent kommunizieren, wie sicher sie sich bei ihrer Antwort ist. Basiert die Antwort auf einem einzigen, möglicherweise veralteten Dokument? Oder auf mehreren aktuellen, konsistenten Quellen?
Ablehnungsprotokoll etablieren: Wenn die KI keine verlässlichen Belege findet, soll sie das klar kommunizieren: "Zu dieser Frage habe ich keine ausreichenden Informationen in den verfügbaren Dokumenten gefunden." Das ist besser als eine geratene Antwort.
Optimiere deine Datenaufbereitung
OCR-Qualität maximieren: Investiere in hochwertige Texterkennung für gescannte Dokumente. Schlechte OCR-Qualität führt zu Fehlern in der gesamten Pipeline. Lass komplexe Dokumente manuell nachkorrigieren.
Formatierung beibehalten: Überschriften, Aufzählungen und Tabellen sollten als solche erkennbar bleiben. Ein Organigramm muss als Hierarchie verstanden werden, nicht als zusammenhangloser Text.
Versionskontrolle implementieren: Speichere nicht nur die aktuelle Version eines Dokuments, sondern auch die Historie. Die KI muss wissen, welche Version die gültige ist und wann Änderungen vorgenommen wurden.
Risikokategorien definieren: Erstelle klare Regeln: Bei Vertragsklauseln über 100.000 CHF, bei allen medizinischen Diagnosen oder bei strategischen Entscheidungen muss immer ein:e menschliche:r Expert:in die KI-Antwort überprüfen.
Automatische Eskalation programmieren: Das System sollte automatisch warnen, wenn es auf kritische Inhalte stösst oder wenn die Vertrauenswerte unter definierte Schwellenwerte fallen.
Halte deine Wissensbasis aktuell und sauber
Automatische Gültigkeitsprüfung: Richte Systeme ein, die dich warnen, wenn Dokumente ihr Verfallsdatum erreichen. Ein Sicherheitsleitfaden von 2019 sollte nicht mehr für aktuelle Anfragen verwendet werden.
Duplikatserkennung aktivieren: Identifiziere und entferne doppelte oder widersprüchliche Inhalte. Wenn zwei Dokumente unterschiedliche Angaben zum gleichen Thema machen, muss das System wissen, welches aktueller ist.
Regelmässige Datenbereinigung planen: Plane quartalsweise Reviews deiner Dokumentenbasis. Veraltete Inhalte müssen archiviert oder gelöscht werden, damit sie die KI nicht mehr verwirren können.
Organisiere kontinuierliche Weiterbildung: Schulungen sind kein einmaliges Event, sondern ein kontinuierlicher Prozess. Deine Mitarbeiter:innen müssen verstehen, wie sie Dokumente KI-tauglich strukturieren, wann sie den Ergebnissen vertrauen können und wie sie Qualitätsprobleme erkennen und melden.
Der Schlüssel liegt darin, deine Dokumente nicht einfach in ein KI-System zu "werfen", sondern sie systematisch für die maschinelle Verarbeitung aufzubereiten. Nur so wird aus einem teuren Tech-Spielzeug ein zuverlässiges Geschäftswerkzeug.
Aber denk daran: Die Technologie entwickelt sich schnell weiter, aber die Grundprinzipien bleiben: Qualität des Retrievals, strikte Attribution und systematische Evaluation sind die Hebel, die den Unterschied zwischen frustrierenden Halluzinationen und zuverlässigen Dokumenten-Analysen ausmachen.
Also wenn Du reden willst, und wenn Du mit mir zusammenarbeiten willst: melde Dich gerne www.rogerbasler.ch
Disclaimer: Dieser Artikel wurde nach meinem eigenen Wissen und dann mit Recherchen mit KI (Perplexity.Ai und Grok.com sowie Gemini.Google.com) manuell zusammengestellt und mit Deepl.com/write vereinfacht. Der Text wird dann nochmals von zwei Personen meiner Wahl gelesen und kritisch hinterfragt. Das Bild stammt von Ideogram.Ai und ist selbst erstellt. Dieser Artikel ist rein edukativ und erhebt keinen Anspruch auf Vollständigkeit. Bitte melde dich, wenn Du Ungenauigkeiten feststellst, danke.
Quellen und weitere Informationen:
Aventine. (2024). AI hallucinations: Adoption & retrieval augmented generation (RAG). https://www.aventine.org/ai-hallucinations-adoption-retrieval-augmented-generation-rag/
Zeff, M. (2025, 18. April). OpenAI’s new reasoning AI models hallucinate more. TechCrunch. https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/
Cohorte. (2025). Evaluating RAG systems in 2025: RAGAS deep dive, Giskard showdown and the future of context. https://www.cohorte.co/blog/evaluating-rag-systems-in-2025-ragas-deep-dive-giskard-showdown-and-the-future-of-context
Confident AI. (2025). RAG evaluation metrics: Answer relevancy, faithfulness and more. https://www.confident-ai.com/blog/rag-evaluation-metrics-answer-relevancy-faithfulness-and-more
EdenAI. (2025). The 2025 guide to retrieval augmented generation (RAG). https://www.edenai.co/post/the-2025-guide-to-retrieval-augmented-generation-rag
Hugging Face. (2025). Hallucination evaluation leaderboard. https://huggingface.co/spaces/vectara/Hallucination-evaluation-leaderboard
Lakera. (2025). Guide to hallucinations in large language models. https://www.lakera.ai/blog/guide-to-hallucinations-in-large-language-models
Liu, Y., et al. (2025). HaluBench: A large-scale benchmark for hallucination detection in retrieval-augmented generation. ArXiv preprint. https://arxiv.org/abs/2504.05324
MIT Sloan. (2025). Addressing AI hallucinations and bias. https://mitsloanedtech.mit.edu/ai/basics/addressing-ai-hallucinations-and-bias/
Pinecone. (2025). Chunking strategies. https://www.pinecone.io/learn/chunking-strategies/
Research AI Multiple. (2025). AI hallucination. https://research.aimultiple.com/ai-hallucination/
SemEval. (2025). Proceedings of the 19th International Workshop on Semantic Evaluation. Association for Computational Linguistics. https://aclanthology.org/2025.semeval-1.151.pdf
Zhang, L., et al. (2025). Understanding long-context degradation in language models. ArXiv preprint. https://arxiv.org/html/2502.05252v1
Reply