Mask-aware inference with State-Space Models

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie versuchen, ein Puzzle zu lösen, aber einige Teile fehlen oder sind durch schwarze Flecken verdeckt. Oder Sie schauen durch ein Fenster, das schmutzig ist und an manchen Stellen zerkratzt.

Die meisten modernen Computer-KI-Modelle (die „Gehirne" für Bilderkennung) sind wie sehr intelligente, aber etwas sture Menschen: Wenn sie ein Bild sehen, nehmen sie alles so, wie es ist. Wenn sie auf einen schwarzen Fleck (einen „ungültigen" oder fehlenden Pixel) stoßen, denken sie: „Das ist ein Teil des Bildes!" und versuchen, daraus Muster zu lernen. Das führt zu Chaos, weil das Modell versucht, aus dem Nichts oder aus Rauschen Bedeutung zu erschaffen.

Dieses Papier stellt eine neue Lösung vor, die wie ein kluger Assistent funktioniert, der genau weiß, welche Teile des Puzzles fehlen und welche Teile echt sind.

Hier ist die einfache Erklärung der wichtigsten Ideen:

1. Das Problem: Der „blinde" KI-Modell

Früher gab es für Bilder nur zwei Haupttypen von KI-Architekturen:

CNNs (Faltungsnetze): Diese waren gut darin, fehlende Teile zu ignorieren, aber sie waren nicht immer schnell genug für riesige Bilder.
Mamba (State-Space Models): Das ist der neue, sehr schnelle Star unter den KI-Modellen. Es ist wie ein Hochgeschwindigkeitszug, der riesige Datenmengen in linearer Zeit verarbeitet. Aber dieser Zug hat ein Problem: Er fährt blind durch das Land. Wenn er auf ein Loch in der Straße (fehlende Daten) trifft, stolpert er nicht einfach, sondern er versucht, über das Loch zu fahren, was das ganze Bild „vergiftet".

2. Die Lösung: „Partial Vision Mamba" (PVM)

Die Autoren haben einen neuen Baustein namens PVM erfunden. Stellen Sie sich PVM wie einen Wachhund oder einen Filter vor, der dem schnellen Mamba-Zug vorausläuft.

Die Maske (Der Wachhund): Das Modell bekommt nicht nur das Bild, sondern auch eine „Maske". Das ist wie eine Schablone, die sagt: „Hier ist ein echtes Bild (grün), hier ist ein Loch (rot), und hier ist ein Rand, wo beides ist (gelb)."
Der Trick: Anstatt das Loch einfach als „schwarzen Pixel" zu behandeln, sagt PVM dem Modell: „Ignoriere diesen Teil komplett!" oder „Behandle diesen Teil als 'leeres Feld', das wir später füllen können."

3. Wie funktioniert das im Detail? (Die Analogie)

Stellen Sie sich vor, Sie sind ein Koch (das KI-Modell), der eine Suppe kocht.

Das alte Problem: Wenn Ihnen jemand ein Rezept gibt, bei dem einige Zutaten fehlen (z. B. „200g Tomaten, [FEHLT], 100g Zwiebeln"), und Sie einfach alles in den Topf werfen, wird die Suppe schmecken wie Wasser mit ein paar Tomatenstücken. Das Modell versucht, die fehlenden Zutaten zu erraten, und verwirrt sich dabei.
Die PVM-Lösung: Der Koch (PVM) hat eine Liste mit einem Haken. Er sieht: „Tomaten: OK. [FEHLT]: Ich werfe hier gar nichts rein, ich lasse die Stelle leer." Er kocht nur mit den echten Zutaten. Wenn die Suppe fertig ist, weiß er genau, wo die Lücken waren, und kann sie später gezielt füllen, ohne den Rest zu verderben.

Im technischen Jargon bedeutet das:

Patch-Embedding (Das Zerschneiden): Bilder werden in kleine Kacheln geschnitten. Wenn eine Kachel halb leer ist, berechnet PVM den Durchschnitt der echten Teile, statt die leeren Stellen mit Nullen zu füllen.
Maskierte Token: Für die leeren Stellen erfindet PVM einen speziellen „Platzhalter-Token" (wie ein leeres Schild), den das Modell lernt zu erkennen und zu ignorieren, anstatt ihn als Information zu missverstehen.

4. Was haben sie damit erreicht? (Die Tests)

Die Autoren haben diesen neuen „Wachhund" in drei verschiedene Situationen getestet:

Tiefenbild-Vervollständigung (Depth Completion):
- Szenario: Ein autonomes Auto sieht nur ein paar Punkte von der Straße (Lidar), aber große Teile sind schwarz.
- Ergebnis: Das alte Modell (Mamba) war verwirrt und sah unscharf aus. Das neue PVM-Modell sah die Konturen von Fußgängern und Autos viel schärfer, weil es die fehlenden Punkte nicht „erfunden", sondern sauber behandelt hat. Es war 23 % genauer.
Bild-Inpainting (Löcher füllen):
- Szenario: Ein Foto hat einen großen schwarzen Fleck (z. B. ein verdecktes Gesicht).
- Ergebnis: Das neue Modell füllte die Lücken realistischer auf (z. B. Nase und Haare sahen natürlich aus), während das alte Modell unscharfe Flecken oder seltsame Linien erzeugte.
Bilderkennung mit fehlenden Teilen:
- Szenario: Ein Bild eines Autos ist teilweise von einem Menschen verdeckt.
- Ergebnis: Das PVM-Modell erkannte das Auto viel besser, weil es sich nur auf die sichtbaren Teile konzentrierte und nicht durch die Verdeckung verwirrt wurde. Die Genauigkeit stieg um 36 %.

Fazit

Dieses Papier zeigt, dass man die Geschwindigkeit und Effizienz der neuen „Mamba"-KI-Modelle behalten kann, aber sie gleichzeitig „klüger" macht, wenn es um unvollständige Daten geht.

Die große Metapher:
Früher war die KI wie ein Schüler, der bei einer Matheaufgabe, bei der eine Zahl fehlt, einfach eine zufällige Zahl hinschreibt, um fertig zu werden.
Mit PVM ist die KI wie ein erfahrener Mathematiker, der sagt: „Hier fehlt eine Zahl. Ich ignoriere diesen Schritt, berechne alles andere korrekt und fülle die Lücke am Ende logisch auf."

Das macht KI robuster für die reale Welt, in der Daten oft unvollständig, verdeckt oder fehlerhaft sind.

Each language version is independently generated for its own context, not a direct translation.

Titel: Mask-aware Inference mit State-Space-Modellen (PVM)

Autoren: Ignasi Mas, Ramon Morros, Javier Ruiz-Hidalgo, Ivan Huerta (UPC)

1. Problemstellung

Viele reale Computer-Vision-Aufgaben (z. B. Tiefen-Vervollständigung, Bildinpainting) müssen mit Eingabedaten umgehen, die Bereiche mit fehlenden oder ungültigen Daten enthalten (z. B. durch Sensorfehler, LiDAR-Spärlichkeit oder anonymisierte Regionen).

Herausforderung bei CNNs: Herkömmliche Convolutional Neural Networks (CNNs) behandeln ungültige Daten (oft mit Platzhaltern wie Nullen gefüllt) als valide, was die Merkmalsextraktion verfälscht. Dies wurde durch Partial Convolutions (PConvs) gelöst, die eine maskenbewusste Normalisierung durchführen.
Herausforderung bei State-Space-Modellen (SSMs): Neue Architekturen wie Mamba (und deren Vision-Varianten wie Vision Mamba/VMamba) bieten hohe Leistung bei linearer Komplexität ( $O(N)$ ) und sind effizienter als Transformer. Allerdings fehlt diesen Architekturen ein inhärenter Mechanismus, um ungültige Daten während der Inferenz zu ignorieren. Standard-SSMs verarbeiten alle Tokens (auch ungültige), was dazu führt, dass ein einzelner korrupter Token die gesamte Sequenz und den versteckten Zustand kontaminiert.
Lücke: Es existiert keine äquivalente, explizite architektonische Lösung für Mamba-Backbones, die ungültige Eingaben dynamisch ignoriert, ähnlich wie PConvs für CNNs.

2. Methodik

Die Autoren stellen einen neuen Rahmen und eine neue Komponente vor, um dieses Problem zu lösen:

A. Mask-aware Framework (Maskenbewusster Rahmen)

Es wird ein formales Framework definiert, das Eingaben als Tupel $(x, m)$ behandelt, wobei $x$ der Daten-Tensor und $m$ ein boolescher Gültigkeitsmasken-Tensor ist.

Dynamische Masken-Updates: Die Gültigkeitsmaske wird während des Datenflusses durch das Netzwerk dynamisch aktualisiert.
- Elementweise Operationen: Die resultierende Gültigkeit ist das logische UND der Eingabemasken.
- Faltung (Convolution): Ein Standard-Convolution-Ergebnis ist ungültig, wenn ein Pixel im Rezeptionsfeld ungültig ist. Eine Partial Convolution (PConv) ist gültig, wenn mindestens ein Pixel im Rezeptionsfeld gültig ist.
- Sequenzmodellierung (SSM): Ein Standard-SSM wird durch einen ungültigen Token korrumpiert. Ein „partial" Mechanismus erfordert nur einen gültigen Token, um ein gültiges Ausgabe-Token zu erzeugen.

B. Partial Vision Mamba (PVM)

PVM ist die zentrale architektonische Komponente, die Mamba-Schichten für den Umgang mit ungültigen Daten modifiziert. Sie adressiert zwei Arten von Ungültigkeiten:

Intra-Patch-Ungültigkeit: Wenn ein Patch teilweise ungültige Pixel enthält, führt die Standard-Patch-Embedding-Schicht zu korrupten Tokens.
- Lösung: Einführung einer Partial Patch Projection. Anstatt einer linearen Schicht wird eine PConv-artige Schicht verwendet (lineare Schicht + Mittelwert-Padding auf ungültigen Positionen), um Tokens aus teilweise gültigen Patches als gültig zu behandeln.
Inter-Patch-Ungültigkeit: Wenn ungültige Tokens in die SSM-Sequenz gelangen, breiten sie sich aus.
- Lösung: Ungültige Tokens werden durch einen gelernten Masked-Token (inspiriert von BERT) ersetzt. Der SSM lernt, diesen speziellen Token zu identifizieren und zu ignorieren, sodass ungültige Platzhalterwerte mathematisch irrelevant für den gültigen Output-Stream werden.

C. Architektonische Integration

PVM-Blöcke müssen in Netzwerken mit Residualverbindungen sorgfältig integriert werden. Bei Residualverbindungen ( $x' = x + PVM(x)$ ) werden nur die gültigen Positionen aktualisiert; die Masken müssen erhalten bleiben.
Für Aufgaben wie Tiefen-Vervollständigung werden Schichten vor dem PVM-Block (z. B. SFE) durch PConvs ersetzt, um die Masken korrekt zu initialisieren.

3. Hauptbeiträge

Entwicklung von PVM: Ein neuartiger Baustein, der die Prinzipien von Partial Convolutions auf Vision Mamba überträgt und die Verarbeitung von Eingaben mit beliebigen Formen ungültiger Daten ermöglicht.
Formalisierung eines Frameworks: Definition einer Reihe von Regeln und Eigenschaften (für Faltung, Pooling, Sequenzmodellierung), wie Architekturen angepasst werden müssen, um maskenbewusst zu sein.
Validierung über drei Aufgaben: Demonstration der Generalisierbarkeit in:
- Tiefen-Vervollständigung (Depth Completion).
- Bildinpainting.
- Bildklassifizierung mit ungültigen Daten.

4. Experimentelle Ergebnisse

Die Autoren vergleichen ihre PVM-basierten Modelle mit masken-unbewussten Mamba-Baselines (VM) und teilweise mit CNN-basierten PConv-Modellen.

Tiefen-Vervollständigung (KITTI-3D):
- Setup: Vergleich von PVM-DC (nur sparse LiDAR, kein RGB) vs. VM-DC.
- Ergebnis: PVM-DC erreicht eine relative Verbesserung von >23% im RMSE (1.38m vs. 1.80m) und 23% im MAE. Dies zeigt, dass maskenbewusste Architektur entscheidend ist, selbst ohne RGB-Leitdaten.
Bildinpainting (FFHQ):
- Setup: Vergleich von PVM-UNet-Varianten mit VM-UNet und PConvs-UNet.
- Ergebnis: Mamba-basierte Modelle übertreffen PConvs in perceptuellen Metriken (FID, LPIPS) deutlich, was auf die bessere globale Kontextmodellierung von SSMs hindeutet. Die komplexere maskenbewusste Variante PVM-UNet-N liefert die besten Ergebnisse (FID: 37.88 vs. 40.02 bei VM-UNet), was zeigt, dass eine umfassende maskenbewusste Designstrategie notwendig ist.
Bildklassifizierung (ImageNet-1k mit Masken):
- Setup: Klassifizierung von Bildern mit zufälligen Masken (Occlusion).
- Ergebnis: PVM-Cls erreicht eine 36% relative Verbesserung der Top-5-Accuracy (34.93% vs. 25.60% bei PlainMamba), obwohl die absolute Genauigkeit aufgrund der Schwierigkeit der Aufgabe niedrig ist.
Ablationsstudien:
- Ein gelernter Masked-Token für ungültige Daten funktioniert besser als Zero-Padding oder Mean-Padding.
- PVM-Modelle sind robust gegenüber verschiedenen Masken-Policies (von leicht bis extrem), nicht nur gegenüber den während des Trainings verwendeten.

5. Bedeutung und Fazit

Durchbruch für SSMs: Das Paper schließt eine kritische Lücke, indem es State-Space-Modelle (Mamba) für reale Szenarien mit unvollständigen Daten nutzbar macht.
Effizienz und Leistung: PVM ermöglicht es, die Effizienz von Mamba ( $O(N)$ ) mit der Robustheit von maskenbewussten Architekturen zu kombinieren.
Generalisierbarkeit: Der Ansatz ist nicht auf eine spezifische Aufgabe beschränkt, sondern bietet ein allgemeines Framework für jede Vision-Aufgabe mit unregelmäßigen fehlenden Daten.
Zukunftsperspektive: Die Autoren planen, PVM auf weitere Tiefen-Aufgaben (z. B. Tiefen-Enhancement) und neue Masken-Scan-Strategien anzuwenden.

Zusammenfassend beweist das Paper, dass die reine Architekturleistung von Mamba durch das Ignorieren von Masken beeinträchtigt wird, und dass die Einführung von Partial Vision Mamba (PVM) eine signifikante, messbare Leistungssteigerung in verschiedenen Domänen ermöglicht.