CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber etwas oberflächlichen Assistenten namens „KI". Dieser Assistent ist ein Meister darin, Bilder zu beschreiben. Wenn du ihm ein Foto von einem Hund zeigst, sagt er sofort: „Das ist ein Golden Retriever!" Wenn du ihm eine Landkarte zeigst, kann er dir sagen, wo die Berge und Flüsse sind. Er ist extrem gut darin, Dinge zu sehen und zu erkennen.

Das Papier „CircuitSense" stellt nun eine ganz neue Art von Prüfung für diesen Assistenten vor. Es geht nicht um Hunde oder Landkarten, sondern um elektronische Schaltpläne – also die komplexen Zeichnungen, die Ingenieure nutzen, um Computer, Handys und Autos zu bauen.

Hier ist die einfache Erklärung, was die Forscher herausgefunden haben, mit ein paar kreativen Vergleichen:

1. Das Problem: Der „Seher" vs. der „Denker"

Die Forscher haben einen riesigen Test entwickelt, den sie CircuitSense nennen. Dieser Test prüft den Assistenten auf drei Ebenen:

Sehen (Wahrnehmung): Kann der Assistent erkennen, was ein Widerstand ist und was ein Transistor? (Das ist wie: „Ist das ein rotes Auto oder ein blaues?")
Analysieren (Berechnen): Kann der Assistent aus dem Bild eine mathematische Formel ableiten? (Das ist wie: „Wenn ich dieses Auto mit 100 km/h fahre und bremse, wie weit wird es rutschen?")
Entwerfen (Konstruieren): Kann der Assistent ein neues Schaltungsbild entwerfen, das bestimmte Anforderungen erfüllt?

Das Ergebnis war schockierend:
Die besten KI-Modelle (die „Super-Assistenten") waren beim Sehen fast perfekt. Sie konnten die Bauteile auf dem Bild zu 85–100 % richtig identifizieren. Sie waren wie ein Experte, der jede einzelne Schraube in einem Motor benennen kann.

Aber sobald es darum ging, die Mathematik zu verstehen, brach alles zusammen. Ihre Fähigkeit, aus dem Bild die richtigen Formeln zu berechnen, lag bei unter 20 %.

Die Analogie: Stell dir vor, du gibst einem Architekten ein Foto eines Hauses. Er kann dir perfekt sagen: „Das ist ein Dach, das sind drei Fenster, das ist eine Tür." Aber wenn du ihn fragst: „Kannst du mir berechnen, ob das Dach bei starkem Wind einstürzt?", sagt er: „Ich weiß es nicht, ich habe das Bild nur gesehen." Er hat das Bild gesehen, aber er hat die Physik dahinter nicht verstanden.

2. Warum ist das so schwierig? (Die Hierarchie)

In der Ingenieurswelt gibt es verschiedene Ebenen, wie man ein System betrachtet:

Ebene 1 (Das große Ganze): Ein Blockdiagramm. Stell dir vor, du siehst nur einen Kasten, der „Radio" heißt.
Ebene 2 (Die Details): Du öffnest den Kasten und siehst Schalter, Drähte und Transistoren.
Ebene 3 (Die Bauteile): Du siehst die winzigen chemischen Strukturen im Chip.

Die KI kann oft gut auf Ebene 1 oder 2 beschreiben, was sie sieht. Aber sie scheitert daran, die Verbindung zwischen diesen Ebenen herzustellen. Sie versteht nicht, wie sich eine Änderung an einem winzigen Widerstand (Ebene 3) auf das gesamte Signal (Ebene 1) auswirkt. Es ist, als würde jemand versuchen, ein Orchester zu dirigieren, indem er nur die Noten auf dem Blatt sieht, aber nicht versteht, wie die Instrumente zusammenklingen.

3. Der Test: Echtes Wissen vs. Auswendiglernen

Die Forscher waren schlau genug, um einen Trick zu verwenden, um zu testen, ob die KI wirklich denkt oder nur auswendig gelernt hat.

Der alte Weg: Viele Tests gaben der KI Multiple-Choice-Fragen. Die KI konnte dann raten oder Muster erkennen („In meinen Trainingsdaten war die Antwort bei diesem Bild immer C").
Der neue Weg (CircuitSense): Die Forscher haben Millionen von neuen, künstlich generierten Schaltplänen erstellt, die noch nie existiert haben. Dazu mussten die KIs die Formeln selbst herleiten.

Das Ergebnis: Sobald die KI nicht mehr raten konnte, fiel ihre Leistung dramatisch ein. Sie konnte die neuen, unbekannten Probleme nicht lösen. Das beweist, dass sie bisher nur „Bilder auswendig gelernt" hat, aber keine echte mathematische Intelligenz besitzt.

4. Was bedeutet das für die Zukunft?

Die Botschaft des Papiers ist klar:
Bislang sind unsere KI-Modelle wie sehr gut ausgebildete Bibliothekare, die wissen, wo jedes Buch steht und wie der Titel aussieht. Aber sie sind noch keine Ingenieure, die verstehen, wie die Maschinen in den Büchern funktionieren.

Solange die KI nicht lernen kann, aus einem Bild eine funktionierende mathematische Formel zu erstellen, kann sie Ingenieuren nicht wirklich helfen, neue, sichere und effiziente Elektronik zu entwerfen. Sie könnte vielleicht ein Bild beschreiben, aber sie würde einen kritischen Fehler übersehen, der dazu führt, dass das ganze System in Flammen aufgeht (wie im Papier erwähnt: Instabilität, Oszillation).

Zusammenfassend:
CircuitSense ist wie ein strenger Lehrer, der sagt: „Es reicht nicht, dass du das Bild des Motors siehst. Du musst mir beweisen, dass du verstehst, wie er läuft, indem du die Formeln aufschreibst." Und bisher haben die besten Schüler der Welt in diesem Fach eine sehr schlechte Note bekommen. Die KI muss noch viel lernen, bevor sie wirklich als Ingenieur-Assistent taugt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Engineering-Design, insbesondere im Bereich der analogen Schaltungstechnik, basiert auf einer hierarchischen Abstraktion: Von System-Spezifikationen (Blockdiagramme) bis hin zu Komponenten-Implementierungen (Transistor-Schaltpläne). Ingenieure müssen visuelle Darstellungen (Schaltpläne) in präzise mathematische Modelle (symbolische Gleichungen, Übertragungsfunktionen) übersetzen, um Leistung, Stabilität und Rauschen zu analysieren.

Obwohl Multi-Modal Large Language Models (MLLMs) bei visuellen Wahrnehmungsaufgaben (z. B. Objekterkennung) hervorragend abschneiden, fehlt ihnen die Fähigkeit, aus technischen Diagrammen symbolische Gleichungen abzuleiten. Bestehende Benchmarks konzentrieren sich meist auf oberflächliche Aufgaben wie die Identifizierung von Bauteilen oder Multiple-Choice-Fragen, die oft durch Mustererkennung gelöst werden können, ohne echtes mathematisches Verständnis zu erfordern. Es gibt derzeit keine umfassende Evaluierung, die prüft, ob KI-Systeme die kritische Fähigkeit besitzen, visuelle Topologien in konsistente mathematische Formeln zu übersetzen.

2. Methodik: CircuitSense Benchmark

Die Autoren stellen CircuitSense vor, einen umfassenden Benchmark mit über 8.006 Problemen, der den gesamten Ingenieursworkflow abbildet. Der Benchmark ist entlang zweier Hauptachsen strukturiert:

Hierarchie-Level (6 Stufen): Von Level 0 (reine Widerstandsnetze) über RLC-Schaltungen, kleine Signale, Transistorebene und Block-Level bis hin zu Level 5 (System-Level-Blockdiagramme).
Aufgabenkategorien:
1. Perception (Wahrnehmung): Komponenten-Erkennung, Verbindungs-Identifikation und Funktionsklassifizierung.
2. Analysis (Analyse): Das Kernstück des Benchmarks. Hier müssen Modelle symbolische Gleichungen (z. B. Übertragungsfunktionen $H(s)$ , Knotengleichungen) aus visuellen Eingaben ableiten. Dies umfasst Transientenverhalten, Frequenzgang, Rauschanalyse und kleine Signale.
3. Design: Aufgaben zur Schaltungssynthese auf Schaltplan-, Block- und hierarchischer Ebene.

Datenherkunft und Synthese:

Kuratierte Daten (2.986 Probleme): Aus autoritativen Lehrbüchern (z. B. Gray, Razavi) und Universitätskursen.
Synthetische Daten (5.020 Probleme): Um Verzerrungen durch Trainingsdaten zu vermeiden und die symbolische Ableitung zu testen, entwickelten die Autoren eine hierarchische synthetische Generierungs-Pipeline:
- Ein Schaltplan-Generator erstellt Gitter-basierte Schaltungen mit garantierten Ground-Truth-Gleichungen (unter Verwendung von SPICE-Simulation und symbolischer Analyse via Lcapy).
- Ein Blockdiagramm-Generator erstellt Kontrollsysteme und berechnet die Gesamt-Übertragungsfunktion symbolisch mittels Mason's Gain Formula.

Evaluierungs-Framework:
Die Auswertung nutzt strenge symbolische Vergleichsmethoden (via SymPy), um algebraisch äquivalente, aber syntaktisch unterschiedliche Gleichungen korrekt zu bewerten. Für Design-Aufgaben werden Simulationen mit Ngspice durchgeführt.

3. Wichtige Beiträge

Erster Multi-Level Visual-to-Analytical Benchmark: CircuitSense ist das erste Benchmark, das das Verständnis über verschiedene Abstraktionsebenen hinweg systematisch bewertet und prüft, wie Modelle visuelle Muster unterschiedlicher Skalen mit mathematischen Repräsentationen verknüpfen.
Hierarchische Synthetische Generierung: Die Entwicklung einer Pipeline, die neue Schaltungen mit garantierten symbolischen Ground-Truth-Gleichungen erzeugt, ermöglicht eine saubere Trennung zwischen visueller Wahrnehmung und mathematischem Schlussfolgern.
Umfassende Multi-Scale-Analyse: Die Evaluation von acht State-of-the-Art-MLLMs (inkl. GPT-4o, Gemini-2.5-Pro, Claude-Sonnet-4, InternVL3, Qwen2.5-VL, GLM-4.5V, Gemma-3) deckt fundamentale Lücken im symbolischen Denken auf.

4. Ergebnisse

Die Evaluierung zeigt einen drastischen Leistungsabfall von der visuellen Wahrnehmung zur symbolischen Analyse:

Perception (Wahrnehmung): Geschlossene Modelle (Closed-Source) erreichen hier hohe Genauigkeiten (>85–100 %). Sie können Komponenten und Topologien zuverlässig erkennen.
Analysis (Symbolische Ableitung): Hier scheitern die Modelle katastrophal. Selbst die besten Modelle (Gemini-2.5-Pro) erreichen bei der symbolischen Gleichungsableitung auf synthetischen Daten nur ~19 % Genauigkeit. Andere Modelle liegen oft unter 5 %.
- Beobachtung: Bei Multiple-Choice-Fragen (kuratierte Daten) liegen die Ergebnisse höher (bis 80 %), was darauf hindeutet, dass Modelle oft Antwortmöglichkeiten eliminieren oder Muster aus Trainingsdaten memorisieren, anstatt die Gleichung selbst herzuleiten.
- Synthetische Daten: Sobald keine Antwortoptionen vorhanden sind und neue Schaltungen gelöst werden müssen, bricht die Leistung ein.
Design: Die Leistung bei Design-Aufgaben korreliert stark mit der Fähigkeit zur symbolischen Ableitung. Modelle, die bessere Gleichungen ableiten können, erzielen auch bessere Ergebnisse beim Schaltungsdesign. Block-Level-Design wird besser gemeistert als detaillierte Schaltplan-Designs.
Fehleranalyse: Die Hauptfehlerquellen liegen nicht in der Topologie-Erkennung, sondern in der algebraischen Manipulation und der korrekten Herleitung von Ausgangsimpedanzen. Modelle können oft den Pfad erkennen, scheitern aber an der mathematischen Umsetzung.

5. Bedeutung und Fazit

Das Paper stellt fest, dass aktuelle MLLMs zwar als „sophistizierte Mustererkennungssysteme" für visuelle Ingenieursaufgaben funktionieren, aber keine echten Ingenieure sind, da ihnen das fundamentale Verständnis zur Ableitung mathematischer Modelle fehlt.

Kritische Lücke: Die Diskrepanz zwischen visueller Parsing-Leistung (>85 %) und symbolischer Reasoning-Leistung (<19 %) zeigt, dass KI-Systeme noch nicht bereit sind, als autonome Werkzeuge im ingenieurtechnischen Entwurfsprozess eingesetzt zu werden, um kritische Fehler (wie Instabilität oder Oszillation) frühzeitig zu erkennen.
Zukunftsausblick: Der Benchmark etabliert die symbolische Ableitung als den entscheidenden Metrik für ingenieurtechnische Kompetenz in KI. Zukünftige Forschung muss sich auf die Verbesserung des algebraischen und mathematischen Schlussfolgerns konzentrieren, nicht nur auf die visuelle Verarbeitung.

CircuitSense bietet somit einen rigorosen Maßstab, um den Fortschritt von KI-Modellen im Bereich des wissenschaftlichen und ingenieurtechnischen Denkens zu messen und zu steuern.

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

1. Das Problem: Der „Seher" vs. der „Denker"

2. Warum ist das so schwierig? (Die Hierarchie)

3. Der Test: Echtes Wissen vs. Auswendiglernen

4. Was bedeutet das für die Zukunft?

1. Problemstellung

2. Methodik: CircuitSense Benchmark

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models

A-SelecT: Automatic Timestep Selection for Diffusion Transformer Representation Learning

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata