Circuit Insights: Towards Interpretability Beyond Activations

Die Arbeit stellt WeightLens und CircuitLens vor, zwei komplementäre Methoden, die über eine reine Aktivierungsanalyse hinausgehen, indem sie Merkmale direkt aus Gewichten ableiten bzw. deren Interaktionen untersuchen, um die Skalierbarkeit und Robustheit der mechanistischen Interpretierbarkeit von neuronalen Netzen zu verbessern.

Elena Golimblevskaia, Aakriti Jain, Bruno Puri, Ammar Ibrahim, Wojciech Samek, Sebastian Lapuschkin

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein großes Sprachmodell (wie ein sehr kluger KI-Assistent) ist eine riesige, dunkle Fabrik. Wir wissen, dass sie wunderbare Dinge produziert – Texte, Antworten, Code – aber wir haben keine Ahnung, wie genau die Maschinen im Inneren funktionieren. Die Wissenschaftler nennen das „Interpretierbarkeit": Wir wollen die Fabrik beleuchten und verstehen, welche Schalter was tun.

Bisher gab es zwei Hauptprobleme bei diesem Versuch, die Fabrik zu verstehen:

  1. Manuelle Arbeit: Forscher mussten wie Detektive jeden einzelnen Schalter (Neuron) einzeln untersuchen. Das war extrem langsam und funktionierte nur bei kleinen, einfachen Fabriken.
  2. Zu viel Rauschen: Wenn man einfach schaut, welche Schalter gerade leuchten (Aktivierungen), sieht man oft nur Chaos. Ein Schalter könnte leuchten, weil er das Wort „Hund" mag, aber auch, weil er gerade von einem anderen Schalter angestupst wurde, der das Wort „Wetter" mag. Es ist schwer zu sagen, was der Schalter wirklich will.

In diesem Papier stellen die Autoren zwei neue Werkzeuge vor, die wie eine Röntgenmaschine und ein Spürhund funktionieren: WeightLens und CircuitLens.

1. WeightLens: Der Blick ins Herzstück (ohne Röntgenstrahlen)

Stell dir vor, du willst verstehen, was ein Koch tut, ohne ihm beim Kochen zuzusehen. Du gehst einfach in seine Küche und schaust dir die Werkzeuge an, die er benutzt. Wenn er einen riesigen Hammer hat, weißt du, dass er wahrscheinlich etwas schweres zertrümmern will, auch wenn er gerade nicht kocht.

  • Wie es funktioniert: WeightLens ignoriert das, was gerade passiert (die Eingabe), und schaut sich stattdessen die festen Verbindungen im Gehirn der KI an. Diese Verbindungen sind wie die verdrahteten Kabel zwischen den Schaltern.
  • Der Vorteil: Es braucht keine riesigen Datenmengen und keinen zweiten KI-Assistenten, der die Arbeit erklärt. Es liest einfach die „Baupläne" (die Gewichte) der KI.
  • Die Analogie: Wenn du siehst, dass ein Schalter fest mit dem Wort „Apfel" verbunden ist, weißt du sofort: „Aha, dieser Schalter mag Äpfel!" Das funktioniert super für Schalter, die immer das Gleiche tun (z. B. immer auf das Wort „der" reagieren).
  • Das Limit: Es funktioniert nicht so gut, wenn ein Schalter nur in bestimmten Situationen reagiert (z. B. nur, wenn vorher das Wort „Wetter" kam). Dafür braucht man mehr als nur die Baupläne.

2. CircuitLens: Der Detektiv für Zusammenhänge

Jetzt stellen wir uns vor, der Koch kocht ein komplexes Gericht. Ein einzelner Schalter leuchtet nicht nur, weil er „Apfel" mag, sondern weil er eine Kette von Ereignissen auslöst: Erst kommt das Messer, dann das Brett, dann der Apfel.

  • Wie es funktioniert: CircuitLens schaut nicht nur auf den leuchtenden Schalter, sondern verfolgt die Spur (den Stromkreis). Es fragt: „Welche anderen Schalter haben diesen Schalter angestoßen?" und „Welche Wörter hat dieser Schalter am Ende produziert?"
  • Die Clustering-Methode: Oft reagieren Schalter auf ganz verschiedene Dinge (z. B. auf „Apfel" und auf „Orangensaft"). Das verwirrt die Erklärer. CircuitLens sortiert diese Fälle wie einen Sortierautomaten. Es gruppiert alle Situationen, in denen der Schalter leuchtet, in verschiedene Körbe:
    • Korb 1: Situationen mit Obst.
    • Korb 2: Situationen mit Getränken.
    • Dann erklärt es jeden Korb einzeln. So wird aus einem verworrenen Durcheinander zwei klare Geschichten.
  • Der Vorteil: Es entlarvt Muster, die man beim bloßen Hinschauen verpasst. Es zeigt nicht nur dass etwas passiert, sondern warum und was danach passiert.

Zusammenfassung: Warum ist das toll?

Bisher mussten wir oft einen riesigen Datenberg durchsuchen und dann eine andere, noch größere KI bitten, uns zu erklären, was die erste KI tut. Das ist teuer, langsam und manchmal unzuverlässig (die erklärende KI könnte lügen oder raten).

Mit WeightLens und CircuitLens machen die Autoren das System robuster und schneller:

  • WeightLens ist wie ein schneller Blick auf die Baupläne: Schnell, effizient, braucht keine Daten.
  • CircuitLens ist wie ein intelligenter Detektiv: Er sortiert das Chaos, findet die wahren Muster und erklärt uns, wie die Teile der KI zusammenarbeiten.

Das große Ziel: Wir wollen KI nicht nur als eine schwarze Kiste betrachten, die magische Antworten spuckt. Wir wollen verstehen, wie sie denkt, damit wir ihr vertrauen können – besonders in sensiblen Bereichen wie der Medizin oder der Justiz. Diese neuen Werkzeuge helfen uns, das Licht in die dunkle Fabrik zu bringen, ohne den ganzen Betrieb lahmzulegen.