An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie müssten ein riesiges, kompliziertes Kochrezept in eine vollautomatische Kochmaschine übersetzen. Das Rezept ist nicht einfach geschrieben; es ist voller juristischer Fachbegriffe, Ausnahmen und sich ständig ändernder Regeln. Wenn die Maschine auch nur einen kleinen Fehler macht, könnte das Essen giftig werden oder Sie könnten eine Strafe vom Gesundheitsamt bekommen.

Genau dieses Problem haben die Autoren dieses Papers mit ihrer Software namens Synedrion gelöst. Hier ist die Geschichte, wie sie es geschafft haben, einfach erklärt:

1. Das Problem: Der "Orakel-Fluch"

Normalerweise testen wir Software so: Wir geben eine Eingabe (z. B. "100 Euro Einkommen") und prüfen, ob das Ergebnis (z. B. "10 Euro Steuer") stimmt. Aber bei Steuergesetzen weiß oft niemand genau, was das perfekte Ergebnis ist, weil die Gesetze so komplex sind. Man nennt das das "Orakel-Problem": Wer ist das Orakel, das uns sagt, was richtig ist?

Zudem neigen große KI-Modelle (LLMs) dazu, zu "halluzinieren". Sie erfinden Fakten oder wenden Regeln falsch an, weil sie die Nuancen der Sprache nicht perfekt verstehen.

2. Die Lösung: Ein Team statt einer Einzelperson

Statt eine einzige super-intelligente KI zu bitten, das ganze Steuerrecht zu programmieren, haben die Forscher ein Team von KI-Agenten zusammengestellt. Stellen Sie sich das wie eine Baustelle vor:

Der Übersetzer (TaxExpertAgent): Dieser Agent liest den trockenen, juristischen Gesetzestext und wandelt ihn in eine klare, strukturierte Liste um (wie eine Einkaufsliste für Zutaten). Er sorgt dafür, dass die KI genau weiß, was gemeint ist.
Die Köche (Coder Agents): Diese Agenten schreiben den eigentlichen Programmcode, basierend auf der Liste des Übersetzers.
Der Küchenchef (Senior Coder): Er überprüft die Arbeit der Köche. Wenn etwas schief läuft, gibt er Feedback, und ein anderer Koch versucht es neu.
Der Qualitätskontrolleur (Metamorphic Agent): Das ist das Herzstück der Innovation.

3. Der geniale Trick: Der "Vergleichs-Koch" (Metamorphic Testing)

Der Qualitätskontrolleur weiß nicht, wie das perfekte Essen schmecken muss. Aber er weiß, wie es im Vergleich schmecken sollte.

Stellen Sie sich vor:

Einfacher Test: "Wenn ich mehr Einkommen habe, muss ich mehr Steuern zahlen." (Das ist wie zu sagen: "Wenn ich mehr Zutaten nehme, muss das Gericht größer sein.")
Der fortschrittliche Test (Higher-Order): Die Forscher haben erkannt, dass einfache Vergleiche nicht reichen. Ein Programm könnte zwar sagen "Mehr Einkommen = Mehr Steuer", aber den falschen Steuersatz verwenden.

Der Metamorphic Agent prüft also nicht nur das Ergebnis, sondern das Verhalten der Software.

Beispiel: "Wenn ich mein Einkommen von 40.000 auf 41.000 Euro erhöhe, steigt die Steuer um X. Wenn ich sie aber von 40.000 auf 50.000 erhöhe, muss der Durchschnitt der Steuersteigerung anders sein, weil ich in eine höhere Steuerklasse rutsche."

Wenn die Software hier einen Fehler macht (z. B. einen flachen Steuersatz für alle anwendet), fängt der Agent das auf, auch wenn er das "richtige" Ergebnis gar nicht kennt. Er sagt: "Hey, das Verhältnis stimmt nicht mit dem Gesetz überein!"

4. Das überraschende Ergebnis: Der kleine Hase schlägt den Bären

Das Coolste an der Studie ist das Ergebnis:
Oft denkt man, je größer und teurer die KI (wie GPT-4o oder Claude), desto besser. Aber hier hat ein kleineres, schnelleres KI-Modell (GPT-4o-mini) in Kombination mit diesem Team-System die riesigen, teuren Modelle geschlagen!

Warum? Weil die kleinen Modelle, wenn sie durch das Team (Übersetzer + Küchenchef + Qualitätskontrolleur) geleitet werden, nicht mehr alles allein wissen müssen. Sie können sich auf ihre Stärken konzentrieren, während die anderen Agenten die Fehler finden und korrigieren.

Zusammenfassung in einer Metapher

Stellen Sie sich vor, Sie wollen ein hochkomplexes Gesetz in einen Roboter programmieren.

Der alte Weg: Sie geben einem einzelnen, super-intelligenten Roboter den Text und hoffen, er macht es richtig. (Oft scheitert er an Details).
Der neue Weg (Synedrion): Sie haben einen Juristen, der den Text erklärt; einen Programmierer, der den Code schreibt; einen Chef, der prüft; und einen Detektiv, der nicht nach dem perfekten Ergebnis sucht, sondern nach logischen Widersprüchen im Verhalten des Roboters.

Durch dieses Teamwork und den cleveren "Vergleichs-Test" (Metamorphic Testing) entsteht eine Software, die so zuverlässig ist, dass sie sogar mit den besten Einzel-KIs mithalten kann – und das oft mit weniger Rechenleistung.

Fazit: Die Forscher zeigen, dass wir für kritische Dinge wie Steuerrecht nicht unbedingt die "größte" KI brauchen, sondern eine kluge Zusammenarbeit von KI-Agenten, die sich gegenseitig kontrollieren. Das macht Software sicherer, vertrauenswürdiger und weniger fehleranfällig.

An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

1. Das Problem: Der "Orakel-Fluch"

2. Die Lösung: Ein Team statt einer Einzelperson

3. Der geniale Trick: Der "Vergleichs-Koch" (Metamorphic Testing)

4. Das überraschende Ergebnis: Der kleine Hase schlägt den Bären

Zusammenfassung in einer Metapher

1. Problemstellung

2. Methodik: Der Synedrion-Ansatz

A. Die Agenten-Architektur

B. Workflow

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

1. Das Problem: Der "Orakel-Fluch"

2. Die Lösung: Ein Team statt einer Einzelperson

3. Der geniale Trick: Der "Vergleichs-Koch" (Metamorphic Testing)

4. Das überraschende Ergebnis: Der kleine Hase schlägt den Bären

Zusammenfassung in einer Metapher

1. Problemstellung

2. Methodik: Der Synedrion-Ansatz

A. Die Agenten-Architektur

B. Workflow

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Explainable machine learning for predicting shellfish toxicity in the Adriatic Sea using long-term monitoring data of HABs

Talking like Piping and Instrumentation Diagrams (P&IDs)

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

IntrinsicWeather: Controllable Weather Editing in Intrinsic Space

Expert Evaluation of LLM World Models: A High-TcT_cTc​ Superconductivity Case Study

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study