CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

Das Paper stellt CircuitSense vor, ein umfassendes Benchmark für multimodale Large Language Models, das deren Fähigkeit bewertet, technische Schaltpläne zu verstehen und daraus symbolische mathematische Gleichungen abzuleiten, wobei die Ergebnisse eine erhebliche Lücke zwischen visueller Wahrnehmung und mathematischem Schlussfolgern aufzeigen.

Arman Akbari, Jian Gao, Yifei Zou, Mei Yang, Jinru Duan, Dmitrii Torbunov, Yanzhi Wang, Yihui Ren, Xuan Zhang

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber etwas oberflächlichen Assistenten namens „KI". Dieser Assistent ist ein Meister darin, Bilder zu beschreiben. Wenn du ihm ein Foto von einem Hund zeigst, sagt er sofort: „Das ist ein Golden Retriever!" Wenn du ihm eine Landkarte zeigst, kann er dir sagen, wo die Berge und Flüsse sind. Er ist extrem gut darin, Dinge zu sehen und zu erkennen.

Das Papier „CircuitSense" stellt nun eine ganz neue Art von Prüfung für diesen Assistenten vor. Es geht nicht um Hunde oder Landkarten, sondern um elektronische Schaltpläne – also die komplexen Zeichnungen, die Ingenieure nutzen, um Computer, Handys und Autos zu bauen.

Hier ist die einfache Erklärung, was die Forscher herausgefunden haben, mit ein paar kreativen Vergleichen:

1. Das Problem: Der „Seher" vs. der „Denker"

Die Forscher haben einen riesigen Test entwickelt, den sie CircuitSense nennen. Dieser Test prüft den Assistenten auf drei Ebenen:

  • Sehen (Wahrnehmung): Kann der Assistent erkennen, was ein Widerstand ist und was ein Transistor? (Das ist wie: „Ist das ein rotes Auto oder ein blaues?")
  • Analysieren (Berechnen): Kann der Assistent aus dem Bild eine mathematische Formel ableiten? (Das ist wie: „Wenn ich dieses Auto mit 100 km/h fahre und bremse, wie weit wird es rutschen?")
  • Entwerfen (Konstruieren): Kann der Assistent ein neues Schaltungsbild entwerfen, das bestimmte Anforderungen erfüllt?

Das Ergebnis war schockierend:
Die besten KI-Modelle (die „Super-Assistenten") waren beim Sehen fast perfekt. Sie konnten die Bauteile auf dem Bild zu 85–100 % richtig identifizieren. Sie waren wie ein Experte, der jede einzelne Schraube in einem Motor benennen kann.

Aber sobald es darum ging, die Mathematik zu verstehen, brach alles zusammen. Ihre Fähigkeit, aus dem Bild die richtigen Formeln zu berechnen, lag bei unter 20 %.

  • Die Analogie: Stell dir vor, du gibst einem Architekten ein Foto eines Hauses. Er kann dir perfekt sagen: „Das ist ein Dach, das sind drei Fenster, das ist eine Tür." Aber wenn du ihn fragst: „Kannst du mir berechnen, ob das Dach bei starkem Wind einstürzt?", sagt er: „Ich weiß es nicht, ich habe das Bild nur gesehen." Er hat das Bild gesehen, aber er hat die Physik dahinter nicht verstanden.

2. Warum ist das so schwierig? (Die Hierarchie)

In der Ingenieurswelt gibt es verschiedene Ebenen, wie man ein System betrachtet:

  • Ebene 1 (Das große Ganze): Ein Blockdiagramm. Stell dir vor, du siehst nur einen Kasten, der „Radio" heißt.
  • Ebene 2 (Die Details): Du öffnest den Kasten und siehst Schalter, Drähte und Transistoren.
  • Ebene 3 (Die Bauteile): Du siehst die winzigen chemischen Strukturen im Chip.

Die KI kann oft gut auf Ebene 1 oder 2 beschreiben, was sie sieht. Aber sie scheitert daran, die Verbindung zwischen diesen Ebenen herzustellen. Sie versteht nicht, wie sich eine Änderung an einem winzigen Widerstand (Ebene 3) auf das gesamte Signal (Ebene 1) auswirkt. Es ist, als würde jemand versuchen, ein Orchester zu dirigieren, indem er nur die Noten auf dem Blatt sieht, aber nicht versteht, wie die Instrumente zusammenklingen.

3. Der Test: Echtes Wissen vs. Auswendiglernen

Die Forscher waren schlau genug, um einen Trick zu verwenden, um zu testen, ob die KI wirklich denkt oder nur auswendig gelernt hat.

  • Der alte Weg: Viele Tests gaben der KI Multiple-Choice-Fragen. Die KI konnte dann raten oder Muster erkennen („In meinen Trainingsdaten war die Antwort bei diesem Bild immer C").
  • Der neue Weg (CircuitSense): Die Forscher haben Millionen von neuen, künstlich generierten Schaltplänen erstellt, die noch nie existiert haben. Dazu mussten die KIs die Formeln selbst herleiten.

Das Ergebnis: Sobald die KI nicht mehr raten konnte, fiel ihre Leistung dramatisch ein. Sie konnte die neuen, unbekannten Probleme nicht lösen. Das beweist, dass sie bisher nur „Bilder auswendig gelernt" hat, aber keine echte mathematische Intelligenz besitzt.

4. Was bedeutet das für die Zukunft?

Die Botschaft des Papiers ist klar:
Bislang sind unsere KI-Modelle wie sehr gut ausgebildete Bibliothekare, die wissen, wo jedes Buch steht und wie der Titel aussieht. Aber sie sind noch keine Ingenieure, die verstehen, wie die Maschinen in den Büchern funktionieren.

Solange die KI nicht lernen kann, aus einem Bild eine funktionierende mathematische Formel zu erstellen, kann sie Ingenieuren nicht wirklich helfen, neue, sichere und effiziente Elektronik zu entwerfen. Sie könnte vielleicht ein Bild beschreiben, aber sie würde einen kritischen Fehler übersehen, der dazu führt, dass das ganze System in Flammen aufgeht (wie im Papier erwähnt: Instabilität, Oszillation).

Zusammenfassend:
CircuitSense ist wie ein strenger Lehrer, der sagt: „Es reicht nicht, dass du das Bild des Motors siehst. Du musst mir beweisen, dass du verstehst, wie er läuft, indem du die Formeln aufschreibst." Und bisher haben die besten Schüler der Welt in diesem Fach eine sehr schlechte Note bekommen. Die KI muss noch viel lernen, bevor sie wirklich als Ingenieur-Assistent taugt.