An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

Diese Studie stellt einen agenticen Ansatz vor, der mithilfe von LLMs und metamorphischem Testen zuverlässige Steuer-Software aus natürlichen Gesetzestexten generiert und dabei zeigt, dass ein kleineres Modell durch spezialisierte Agenten-Workflows robustere Ergebnisse liefert als fortschrittlichere Modelle.

Sina Gogani-Khiabani, Ashutosh Trivedi, Diptikalyan Saha, Saeid Tizpaz-Niari

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie müssten ein riesiges, kompliziertes Kochrezept in eine vollautomatische Kochmaschine übersetzen. Das Rezept ist nicht einfach geschrieben; es ist voller juristischer Fachbegriffe, Ausnahmen und sich ständig ändernder Regeln. Wenn die Maschine auch nur einen kleinen Fehler macht, könnte das Essen giftig werden oder Sie könnten eine Strafe vom Gesundheitsamt bekommen.

Genau dieses Problem haben die Autoren dieses Papers mit ihrer Software namens Synedrion gelöst. Hier ist die Geschichte, wie sie es geschafft haben, einfach erklärt:

1. Das Problem: Der "Orakel-Fluch"

Normalerweise testen wir Software so: Wir geben eine Eingabe (z. B. "100 Euro Einkommen") und prüfen, ob das Ergebnis (z. B. "10 Euro Steuer") stimmt. Aber bei Steuergesetzen weiß oft niemand genau, was das perfekte Ergebnis ist, weil die Gesetze so komplex sind. Man nennt das das "Orakel-Problem": Wer ist das Orakel, das uns sagt, was richtig ist?

Zudem neigen große KI-Modelle (LLMs) dazu, zu "halluzinieren". Sie erfinden Fakten oder wenden Regeln falsch an, weil sie die Nuancen der Sprache nicht perfekt verstehen.

2. Die Lösung: Ein Team statt einer Einzelperson

Statt eine einzige super-intelligente KI zu bitten, das ganze Steuerrecht zu programmieren, haben die Forscher ein Team von KI-Agenten zusammengestellt. Stellen Sie sich das wie eine Baustelle vor:

  • Der Übersetzer (TaxExpertAgent): Dieser Agent liest den trockenen, juristischen Gesetzestext und wandelt ihn in eine klare, strukturierte Liste um (wie eine Einkaufsliste für Zutaten). Er sorgt dafür, dass die KI genau weiß, was gemeint ist.
  • Die Köche (Coder Agents): Diese Agenten schreiben den eigentlichen Programmcode, basierend auf der Liste des Übersetzers.
  • Der Küchenchef (Senior Coder): Er überprüft die Arbeit der Köche. Wenn etwas schief läuft, gibt er Feedback, und ein anderer Koch versucht es neu.
  • Der Qualitätskontrolleur (Metamorphic Agent): Das ist das Herzstück der Innovation.

3. Der geniale Trick: Der "Vergleichs-Koch" (Metamorphic Testing)

Der Qualitätskontrolleur weiß nicht, wie das perfekte Essen schmecken muss. Aber er weiß, wie es im Vergleich schmecken sollte.

Stellen Sie sich vor:

  • Einfacher Test: "Wenn ich mehr Einkommen habe, muss ich mehr Steuern zahlen." (Das ist wie zu sagen: "Wenn ich mehr Zutaten nehme, muss das Gericht größer sein.")
  • Der fortschrittliche Test (Higher-Order): Die Forscher haben erkannt, dass einfache Vergleiche nicht reichen. Ein Programm könnte zwar sagen "Mehr Einkommen = Mehr Steuer", aber den falschen Steuersatz verwenden.

Der Metamorphic Agent prüft also nicht nur das Ergebnis, sondern das Verhalten der Software.

  • Beispiel: "Wenn ich mein Einkommen von 40.000 auf 41.000 Euro erhöhe, steigt die Steuer um X. Wenn ich sie aber von 40.000 auf 50.000 erhöhe, muss der Durchschnitt der Steuersteigerung anders sein, weil ich in eine höhere Steuerklasse rutsche."

Wenn die Software hier einen Fehler macht (z. B. einen flachen Steuersatz für alle anwendet), fängt der Agent das auf, auch wenn er das "richtige" Ergebnis gar nicht kennt. Er sagt: "Hey, das Verhältnis stimmt nicht mit dem Gesetz überein!"

4. Das überraschende Ergebnis: Der kleine Hase schlägt den Bären

Das Coolste an der Studie ist das Ergebnis:
Oft denkt man, je größer und teurer die KI (wie GPT-4o oder Claude), desto besser. Aber hier hat ein kleineres, schnelleres KI-Modell (GPT-4o-mini) in Kombination mit diesem Team-System die riesigen, teuren Modelle geschlagen!

Warum? Weil die kleinen Modelle, wenn sie durch das Team (Übersetzer + Küchenchef + Qualitätskontrolleur) geleitet werden, nicht mehr alles allein wissen müssen. Sie können sich auf ihre Stärken konzentrieren, während die anderen Agenten die Fehler finden und korrigieren.

Zusammenfassung in einer Metapher

Stellen Sie sich vor, Sie wollen ein hochkomplexes Gesetz in einen Roboter programmieren.

  • Der alte Weg: Sie geben einem einzelnen, super-intelligenten Roboter den Text und hoffen, er macht es richtig. (Oft scheitert er an Details).
  • Der neue Weg (Synedrion): Sie haben einen Juristen, der den Text erklärt; einen Programmierer, der den Code schreibt; einen Chef, der prüft; und einen Detektiv, der nicht nach dem perfekten Ergebnis sucht, sondern nach logischen Widersprüchen im Verhalten des Roboters.

Durch dieses Teamwork und den cleveren "Vergleichs-Test" (Metamorphic Testing) entsteht eine Software, die so zuverlässig ist, dass sie sogar mit den besten Einzel-KIs mithalten kann – und das oft mit weniger Rechenleistung.

Fazit: Die Forscher zeigen, dass wir für kritische Dinge wie Steuerrecht nicht unbedingt die "größte" KI brauchen, sondern eine kluge Zusammenarbeit von KI-Agenten, die sich gegenseitig kontrollieren. Das macht Software sicherer, vertrauenswürdiger und weniger fehleranfällig.