Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen extrem intelligenten, aber manchmal etwas verwirrten Assistenten. Er kann fließend Deutsch sprechen, Texte verfassen und komplexe Pläne entwerfen. Aber er hat ein großes Problem: Er halluziniert.

Das bedeutet nicht, dass er an Geister glaubt, sondern dass er Dinge erfindet, die klingen, als wären sie wahr, aber in Wirklichkeit falsch sind. In einem Büro ist das vielleicht nur peinlich. In einer Fabrik oder bei der Steuerung von Klimaanlagen (wie in diesem Papier beschrieben) kann das katastrophal sein. Wenn der Assistent sagt: „Schalten Sie Ventil A ab", Ventil A aber eigentlich das einzige ist, das die Kühlung aufrechterhält, könnte die ganze Anlage überhitzen.

Dieses Papier von Brian Freeman und seinem Team von Trane Technologies ist wie ein Rezeptbuch für Ingenieure, das erklärt, wie man diesen verwirrten Assistenten zähmt, ohne ihn neu programmieren zu müssen. Sie haben fünf verschiedene Tricks ausprobiert, um sicherzustellen, dass der Assistent nicht nur „klingt", sondern auch „weiß", was er tut.

Hier ist die einfache Erklärung der fünf Methoden, verpackt in alltägliche Bilder:

1. Der „Wiederholungs-Trick" (M1: Iterative Similarity)

Das Problem: Wenn Sie den Assistenten zweimal die gleiche Frage stellen, gibt er zweimal eine leicht andere Antwort. Manchmal ist die eine Antwort besser, manchmal die andere.
Der Trick: Sie lassen den Assistenten die Aufgabe fünfmal hintereinander machen. Dann vergleichen Sie die Antworten. Wenn zwei Antworten sich sehr ähnlich sind (wie zwei fast identische Fotos), nehmen wir an, dass der Assistent sich auf den richtigen Weg „eingeschworen" hat.
Die Metapher: Es ist wie wenn Sie einen Weg durch einen dichten Nebel suchen. Wenn Sie fünfmal loslaufen und viermal denselben Pfad nehmen, ist es wahrscheinlich der richtige Weg, auch wenn Sie nicht genau wissen, warum.
Das Ergebnis: Es funktioniert gut (75 % Erfolg), aber manchmal laufen alle fünf Versionen in die gleiche falsche Sackgasse.

2. Der „Bauplan-Trick" (M2: Zerlegung)

Das Problem: Der Assistent bekommt eine riesige, komplizierte Aufgabe (z. B. „Planen Sie ein ganzes IT-Projekt mit allen Details"). Er versucht, alles auf einmal zu tun, und vergisst dabei wichtige Teile.
Der Trick: Man zerlegt die Aufgabe. Zuerst sagt man dem Assistenten: „Nimm dir nur die Fakten heraus." Dann sagt man: „Schreibe jetzt basierend auf diesen Fakten den Bericht."
Das Problem dabei (Version 1): Der Assistent vergaß beim „Fakten-Herausnehmen" oft die feinen Details der ursprünglichen Anweisung. Er verlor den Kontext.
Die Lösung (Version 2): Man gibt dem Assistenten beim Schreiben des Berichts die Original-Anweisung nochmal als „Checkliste" neben die Fakten.
Die Metapher: Stellen Sie sich vor, Sie bauen ein Haus. Version 1 war so, als würde man dem Maurer nur die Ziegel geben und sagen „Bau ein Haus". Er vergisst das Dach. Version 2 gibt ihm die Ziegel und den ursprünglichen Bauplan, damit er nichts vergisst.
Das Ergebnis: Die erste Version war ein Flop (34 % Erfolg), aber mit der Checkliste (Version 2) wurde sie zum Gewinner mit 80 % Erfolg!

3. Der „Spezialisten-Trick" (M3: Einzelne Agenten)

Das Problem: Ein einzelner Assistent versucht, alles zu sein: Detektiv (Fehler finden), Richter (Schweregrad bewerten), Handwerker (Lösung finden) und Berichterstatter. Wenn er beim ersten Schritt einen Fehler macht, baut er darauf auf und der ganze Bericht ist falsch.
Der Trick: Man stellt vier verschiedene Assistenten auf. Einer findet den Fehler, einer bewertet ihn, einer plant die Reparatur, einer schreibt den Bericht. Sie arbeiten in einer Kette.
Die Lösung (Version 2): Man fügt einen fünften Assistenten hinzu, einen „Schlichter". Dieser liest alles, was die anderen vier geschrieben haben, und prüft, ob es logisch zusammenpasst.
Die Metapher: Statt dass eine Person versucht, ein ganzes Orchester zu dirigieren, zu singen und die Geige zu spielen, hat man jetzt vier Musiker und einen Dirigenten, der darauf achtet, dass alle im Takt bleiben.
Das Ergebnis: Sehr erfolgreich (80 % bis 100 %). Der Schlichter verhindert, dass sich Fehler durch die Kette fortpflanzen.

4. Der „Handbuch-Trick" (M4: Verbesserte Daten)

Das Problem: Der Assistent sieht auf einem Bildschirm nur Zahlen und kryptische Codes wie „CHW-V-01". Er weiß nicht, was das ist. Also rät er.
Der Trick: Man klebt dem Assistenten direkt vor die Aufgabe ein kleines Handbuch. Statt nur „CHW-V-01: 100" zu sehen, sieht er: „CHW-V-01: Das ist ein Kühlwasser-Ventil. Normalerweise sollte es zwischen 20 und 80 % offen sein. Wenn es über 95 % steht, ist das ein Fehler."
Die Metapher: Es ist der Unterschied zwischen einem Arzt, der nur eine Zahl auf einem Zettel sieht, und einem Arzt, der ein komplettes medizinisches Handbuch mit Symptomen und Normwerten direkt auf dem Tisch liegen hat.
Das Ergebnis: Der absolute Gewinner. In 100 von 100 Versuchen war die Antwort besser. Der Assistent musste nichts mehr raten, weil ihm die Fakten direkt gegeben wurden.

5. Der „Wörterbuch-Trick" (M5: Fachbegriffe)

Das Problem: In der Industrie gibt es viele Abkürzungen. „DX" kann für „Direct Expansion" (Kältetechnik) stehen, aber ein normaler Assistent denkt vielleicht an „Digital Experience".
Der Trick: Man gibt dem Assistenten am Anfang eine Liste mit den wichtigsten Fachbegriffen und deren Bedeutung.
Die Metapher: Es ist wie wenn Sie einem Touristen in einem fremden Land eine kleine Karte mit den wichtigsten Wörtern geben, bevor er losgeht.
Das Ergebnis: Sehr gut (77 % Erfolg). Es hilft, Missverständnisse zu vermeiden.

Das große Fazit

Die Forscher haben herausgefunden, dass man KI nicht unbedingt „klüger" machen muss (das wäre teuer und schwierig). Man muss ihr nur bessere Werkzeuge und mehr Kontext geben.

Wenn Sie Daten haben, geben Sie ihr ein Handbuch (M4). Das funktioniert am besten.
Wenn die Aufgabe kompliziert ist, geben Sie ihr eine Checkliste (M2).
Wenn es um Fehleranalyse geht, nutzen Sie Spezialisten (M3).

Wichtig zu wissen: Der Assistent, der die Antworten bewertet hat, war derselbe wie der, der die Antworten geschrieben hat. Das ist wie wenn ein Schüler seine eigene Hausaufgaben korrigiert. Es funktioniert gut, um zu sehen, ob der Text „gut aussieht", aber ein echter Mensch sollte am Ende trotzdem noch einmal nachschauen.

Insgesamt ist dieses Papier ein Beweis dafür, dass man mit cleveren Tricks (Prompt Engineering) KI-Systeme viel zuverlässiger machen kann, ohne sie neu zu erfinden. Es ist der Unterschied zwischen einem Assistenten, der raten muss, und einem Assistenten, der genau weiß, was zu tun ist.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction" auf Deutsch.

1. Problemstellung

Große Sprachmodelle (LLMs) werden zunehmend in industriellen Umgebungen (z. B. Engineering-Design, ERP-Systeme, IoT-Telemetrie) eingesetzt. Ein zentrales Hindernis für die breite Adoption ist jedoch die Zuverlässigkeit: LLMs erzeugen Ausgaben, die syntaktisch kohärent und kontextuell plausibel, aber faktisch falsch sind (Halluzinationen).

In Hochrisiko-Szenarien wie der Gebäudeautomation (HVAC/BMS) oder der Wartungsplanung sind diese Fehler kritisch, da sie zu falschen Diagnosen, teuren Wartungsmaßnahmen oder Systemausfällen führen können. Das Hauptproblem ist struktureller Natur:

Nicht-Determinismus: LLMs generieren Wahrscheinlichkeitsverteilungen und sind nicht deterministisch an eine autoritative Wahrheit gebunden.
Kaskadierende Fehler: Bei mehrstufigen Aufgaben kann ein Fehler in einem frühen Schritt alle nachfolgenden Schritte korrumpieren.
Statistische vs. faktische Korrektheit: Modelle minimieren den Cross-Entropy-Verlust (statistische Wahrscheinlichkeit von Token-Folgen), nicht die faktische Korrektheit für einen spezifischen Einzelfall.

Das Paper führt den Begriff der Epistemischen Stabilität ein: Das Ziel ist nicht absolute philosophische Gewissheit, sondern die Fähigkeit eines Verfahrens, konsistente, wiederholbare und überprüfbare Ergebnisse zu liefern, selbst wenn absolute Korrektheit nicht garantiert werden kann.

2. Methodik

Die Autoren untersuchten fünf Prompt-Engineering-Strategien, die keine Gewichtsänderungen des Modells oder komplexe Validierungsmodelle erfordern. Alle Methoden wurden gegen eine interne Baseline (ein einfacher Zero-Shot-Prompt) getestet.

Das Evaluierungs-Framework:

Modell: Azure OpenAI GPT-5 (ver: 2025-12-11).
Setup: 100 Wiederholungen pro Methode (D1-Datensatz) mit stochastischem Decoding ( $\tau = 0.7$ ).
Bewertung: „LLM-as-Judge" (ein zweiter Aufruf desselben Modells bei $\tau = 0.0$ ), der Baseline und Methode in den Dimensionen Genauigkeit, Klarheit und Direktheit vergleicht. Das Ergebnis ist „Besser", „Gleich" oder „Schlechter".

Die fünf untersuchten Strategien (v1):

M1 (Iterative Similarity Convergence): Mehrere Iterationen desselben Prompts werden generiert. Die Ausgabe wird beibehalten, wenn die semantische Ähnlichkeit zwischen aufeinanderfolgenden Antworten einen Schwellenwert ( $\sigma_{sim} = 0.85$ ) erreicht.
M2 (Decomposed Model-Agnostic Prompting): Zerlegung der Aufgabe in zwei Schritte: (1) Extraktion strukturierter Fakten aus dem Prompt, (2) Synthese einer Antwort basierend nur auf diesen Fakten.
M3 (Single-Task Agent Specialization): Statt eines einzigen Agents, der alle Aufgaben (Ursachenanalyse, Schweregrad, Remediation, Bericht) erledigt, werden vier spezialisierte Agents in einer Kette verwendet.
M4 (Enhanced Data Registry): Anstatt eines RAG-Systems wird ein strukturierter Kontext direkt in den Prompt injiziert. Rohdaten (Sensorwerte) werden um Metadaten erweitert (z. B. physikalische Rolle, Normalbereich, Fehler-Schwellenwerte, Abhängigkeiten).
M5 (Domain Glossary Injection): Ein kontrolliertes Glossar mit domänenspezifischen Akronymen (z. B. HVAC-Begriffe) wird dem Prompt vorangestellt, um Mehrdeutigkeiten zu beseitigen.

3. Wichtige Beiträge und Verbesserungen (v2)

Basierend auf den Ergebnissen von D1 wurden für vier der fünf Methoden Version 2 (v2) entwickelt, um spezifische Schwachstellen zu beheben:

M1 v2 (Self-Critique & Refinement): Ersetzt die Ähnlichkeitskonvergenz durch einen gezielten Kritik-Schritt. Das Modell generiert einen Entwurf, identifiziert exakt drei spezifische Fehler oder fehlende Anforderungen und erstellt dann eine korrigierte Version. Dies ist direkter als das bloße Messen struktureller Ähnlichkeit.
M2 v2 (Context-Aware Synthesis): Das Hauptproblem von M2 v1 war der Verlust des ursprünglichen Prompt-Kontexts (z. B. Formatierungsanforderungen) während der Synthese. In v2 wird der ursprüngliche Prompt als „Checkliste" an den Synthese-Schritt übergeben, um sicherzustellen, dass keine Anforderungen verloren gehen.
M3 v2 (Multi-Agent Consensus): Ein fünfter „Reconciler"-Agent wurde hinzugefügt, der die Ausgaben der vier vorherigen Agents erhält, interne Widersprüche erkennt und einen konsistenten Endbericht erstellt.
M5 v2 (Dynamic Glossary Retrieval): Statt das gesamte Glossar einzufügen, wird dynamisch nur der relevante Teil des Glossars basierend auf dem Prompt ausgewählt, um Token-Overhead und Rauschen zu reduzieren.
M4: Keine Änderung, da die Methode bereits 100 % „Besser"-Urteile in D1 erreichte.

4. Ergebnisse

Datensatz D1 (100 Wiederholungen, v1-Methoden):

M4 (Enhanced Data Registry): 100 % „Besser". Kein einziger Fall von „Gleich" oder „Schlechter". Dies ist das stärkste Ergebnis, wobei die Autoren eine mögliche Verzerrung durch die Länge der Antworten (Bias des Judges) anmerken.
M3 (Agent Specialization): 80 % „Besser". Zeigt, dass die Aufteilung von Aufgaben kaskadierende Fehler reduziert.
M5 (Glossary Injection): 77 % „Besser". Bestätigt, dass die Entschärfung von Mehrdeutigkeiten bei Akronymen hilft.
M1 (Iterative Convergence): 75 % „Besser". Die Ähnlichkeitskonvergenz ist ein indirektes Signal, aber nicht perfekt (7 % „Schlechter").
M2 (Decomposed Prompting): 34 % „Besser" (Netto negativ). Die Zerlegung führte zu einem Verlust von Kontext (z. B. Sicherheitsanforderungen), was die Qualität verschlechterte.

Datensatz D2 (10 Wiederholungen, v2-Methoden – explorativ):

M2 v2: Erholte sich dramatisch von 34 % auf 80 %. Dies ist die größte relative Verbesserung und bestätigt, dass der Kontextverlust die Hauptursache für das Scheitern von v1 war.
M1 v2 & M3 v2: Beide erreichten 100 % „Besser" in den 10 Testläufen (vorläufig).
M4: Bleibt bei 100 %.
M5 v2: Zeigte 60 % „Besser" (statistisch nicht signifikant aufgrund der kleinen Stichprobe, aber keine „Schlechter"-Urteile).

5. Bedeutung und Fazit

Das Paper liefert einen pragmatischen Leitfaden für den Einsatz von LLMs in industriellen Umgebungen, wo absolute Vorhersagbarkeit oft nicht möglich ist, aber Stabilität und Nachvollziehbarkeit entscheidend sind.

Praktische Relevanz: Die vorgestellten Methoden erfordern keine Fine-Tuning-Prozesse oder teure Infrastrukturänderungen. Sie basieren rein auf Prompt-Engineering und strukturiertem Kontext-Management.
Epistemische Stabilität: Der Kernbeitrag ist der Nachweis, dass durch die Bereitstellung von verifizierbarem, strukturiertem Kontext (wie bei M4) oder durch die Reduzierung des Aufgabenraums (wie bei M3) die Wahrscheinlichkeit von Halluzinationen signifikant gesenkt werden kann.
Diagnose von Fehlern: Das Paper demonstriert, wie man spezifische Fehlermodi identifiziert (z. B. Kontextverlust bei Zerlegung) und gezielte Gegenmaßnahmen entwickelt.
Einschränkungen: Die Studie nutzt dasselbe Modell als Generator und Richter (was zu Stil-Bias führen kann), beschränkt sich auf vier spezifische Szenarien und verwendet eine kleine Stichprobe für die v2-Ergebnisse. Die Ergebnisse sind daher als richtungsweisende Signale für den spezifischen Einsatzkontext zu verstehen, nicht als universelle Benchmarks.

Zusammenfassend zeigt das Paper, dass industrielle LLM-Anwendungen durch gezielte Prompt-Strategien, insbesondere durch die Anreicherung von Daten mit domänenspezifischen Metadaten (M4) und die Korrektur von Zerlegungsfehlern (M2 v2), deutlich zuverlässiger und stabiler gemacht werden können.

Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

1. Der „Wiederholungs-Trick" (M1: Iterative Similarity)

2. Der „Bauplan-Trick" (M2: Zerlegung)

3. Der „Spezialisten-Trick" (M3: Einzelne Agenten)

4. Der „Handbuch-Trick" (M4: Verbesserte Daten)

5. Der „Wörterbuch-Trick" (M5: Fachbegriffe)

Das große Fazit

1. Problemstellung

2. Methodik

3. Wichtige Beiträge und Verbesserungen (v2)

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem