Formal that "Floats" High: Formal Verification of Floating Point Arithmetic

Dieser Beitrag stellt eine skalierbare Methode zur formalen Verifikation von Gleitkommaarithmetik vor, die durch direkte RTL-zu-RTL-Modellprüfung, eine modulare Zerlegungsstrategie und den Einsatz von KI-gestützter Eigenschaftsgenerierung mit menschlicher Rückkopplung Abstraktionslücken überwindet und eine höhere Abdeckungseffizienz als herkömmliche Ansätze erreicht.

Hansa Mohanty, Vaisakh Naduvodi Viswambharan, Deepak Narayan Gadde

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🧠 Der große Bauplan-Check: Wie KI und Mathematik sicherstellen, dass Computerrechnen nicht verrückt spielt

Stellen Sie sich vor, Sie bauen einen riesigen, hochkomplexen Schokoladenautomaten. Dieser Automat soll nicht nur Schokolade ausgeben, sondern auch ganz präzise berechnen, wie viel Schokolade in ein Glas passt, wenn Sie einen Knopf drücken. Das Problem: Wenn der Automat auch nur eine winzige Krümel zu viel oder zu wenig rechnet, könnte das ganze Glas überlaufen oder leer bleiben. In der Welt der Computer nennt man das Gleitkommazahlen (Floating-Point).

Diese Arbeit von Hansa Mohanty und seinem Team ist wie ein Super-Inspektor, der diesen Schokoladenautomaten nicht nur testet, sondern beweist, dass er unter allen denkbaren Umständen perfekt funktioniert.

1. Das Problem: Der alte Weg war wie eine schlechte Übersetzung

Früher haben Ingenieure, um zu prüfen, ob ihr Schokoladenautomat (die Hardware) richtig rechnet, erst eine theoretische Anleitung auf Papier geschrieben (in einer Programmiersprache namens C). Dann haben sie versucht, diese Anleitung mit dem echten Automaten zu vergleichen.

Das Problem dabei: Es ist wie der Versuch, ein deutsches Kochrezept mit einem chinesischen Kochbuch zu vergleichen, indem man es erst ins Englische und dann ins Französische übersetzt. Irgendwo geht immer etwas verloren, oder die Übersetzung ist ungenau. Das nennt man eine "Abstraktionslücke". Wenn der echte Automat dann doch einen Fehler macht, liegt es vielleicht nicht am Automaten, sondern an der schlechten Übersetzung.

2. Die Lösung: Der direkte Vergleich (RTL-zu-RTL)

Die Autoren sagen: "Vergessen wir die Übersetzungen!"
Statt eine theoretische Anleitung zu schreiben, bauen sie einen zweiten, perfekten Schokoladenautomaten (ein "Golden Reference Model"). Dieser zweite Automat ist zwar etwas langsamer und nicht für den echten Verkauf gedacht, aber er rechnet mathematisch perfekt nach den Regeln der Welt (IEEE-754).

Dann stellen sie den echten, schnellen Automaten und den perfekten, langsamen Automaten nebeneinander. Ein riesiger mathematischer Prüfer (ein "Formaler Verifizierer") schaut sich jeden einzelnen Zahnrad-Dreh und jeden Schokoladenfluss an und vergleicht: Macht der echte Automat exakt das Gleiche wie der perfekte?

Das ist wie ein Zwillings-Test: Wenn einer der beiden auch nur einen Millimeter abweicht, schreit der Prüfer sofort: "Hier stimmt was nicht!"

3. Die Strategie: Das Puzzle zerlegen (Divide and Conquer)

Ein ganzer Schokoladenautomat ist zu riesig, um ihn auf einmal zu prüfen. Das Gehirn des Prüfers würde explodieren.
Also zerlegen die Autoren den Automaten in kleine, überschaubare Stationen:

  1. Die Ausrichtung: Welches Schokoladenstück ist größer?
  2. Die Addition: Jetzt wird es gemischt und gerundet.

Sie prüfen jede Station einzeln. Wenn die erste Station passt, prüfen sie die zweite. Das macht die Aufgabe viel einfacher und schneller. Wenn etwas schiefgeht, weiß der Prüfer sofort, an welcher Station der Fehler sitzt, und nicht, wo er im ganzen Gebäude suchen muss.

4. Der neue Held: Die KI-Agenten (Agentic AI)

Hier kommt das wirklich Coolste ins Spiel. Früher mussten Menschen hunderte von Regeln (Assertions) selbst schreiben, um den Prüfer zu instruieren. Das ist mühsam und fehleranfällig.

In dieser Arbeit haben die Autoren eine KI-Gruppe eingesetzt, die wie ein Team von Spezialisten arbeitet:

  • Der Planer: Schaut sich die Baupläne an und sagt: "Wir müssen hier aufpassen."
  • Der Generator: Schreibt automatisch die Regeln für den Prüfer (in einer Sprache, die der Computer versteht).
  • Der Kritiker: Überprüft, ob die Regeln Sinn ergeben.
  • Der Korrektor: Behebt Fehler.

Aber die KI ist noch nicht perfekt. Sie macht manchmal Fehler, wie ein Schüler, der die Aufgabe nicht ganz verstanden hat. Deshalb gibt es einen Menschen im Loop (HITL). Das ist wie ein Lehrer, der den Schüler korrigiert: "Nein, das ist nicht ganz richtig, denk nochmal über die Rundung nach."

Das Ergebnis: Die KI schreibt die meisten Regeln, der Mensch gibt nur noch den Feinschliff. Das geht viel schneller, als wenn der Mensch alles von Hand schreiben müsste.

5. Der Stresstest: Was passiert, wenn wir den Automaten kaputt machen?

Um sicherzugehen, dass ihr System wirklich gut ist, haben die Autoren absichtlich Fehler in den echten Automaten eingebaut (Fault Injection).

  • "Was passiert, wenn wir das Schokoladenstück falsch herum drehen?"
  • "Was, wenn wir die Rundung falsch machen?"

Das System hat alle diese eingebauten Fehler sofort gefunden. Das beweist, dass der Prüfer nicht nur oberflächlich schaut, sondern wirklich tief in die Mechanik hineinsieht.

🏆 Das Fazit in einem Satz

Diese Arbeit zeigt, dass man Computer-Hardware, die komplexe Mathematik macht, am besten prüft, indem man sie direkt mit einem perfekten mathematischen Zwilling vergleicht (ohne Umwege über andere Programmiersprachen) und dabei eine KI als Assistenten nutzt, die die Regeln schreibt, während ein Mensch sie nur noch kurz überprüft. Das macht den Prozess schneller, sicherer und zuverlässiger als alles, was es vorher gab.

Kurz gesagt: Wir haben einen mathematischen Doppelgänger gebaut, um unsere Computer-Chips zu testen, und eine KI geholfen, die Testregeln zu schreiben. So verhindern wir, dass Computerrechnen in Zukunft "verrückt spielt".