SF-Mamba: Rethinking State Space Model for Vision

Het paper introduceert SF-Mamba, een nieuw visueel Mamba-model dat door middel van hulpstuk-uitwisseling en batch-vouwen de beperkingen van eerdere scanstrategieën overwint en zo superieure prestaties en doorvoer boekt ten opzichte van de state-of-the-art baselines.

Masakazu Yoshimura, Teruaki Hayashi, Yuki Hoshino, Wei-Yao Wang, Takeshi Ohashi

Gepubliceerd 2026-03-18
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme foto bekijkt, bijvoorbeeld een drukke markt. Om te begrijpen wat er gebeurt, moet je kijken naar de mensen links, rechts, voor en achter elkaar.

Vroeger gebruikten computers voor dit soort taken CNN's (zoals een mens die eerst naar details kijkt en dan naar het geheel) of Transformers (zoals een super-intelligente lezer die elke persoon in de foto tegelijkertijd bekijkt en hun relaties doorzoekt).

Maar die "super-lezer" (de Transformer) heeft een groot nadeel: als de foto heel groot wordt, moet hij elke persoon met elke andere persoon vergelijken. Dat wordt zo veel werk dat het langzaam en duur wordt.

Daarna kwam er een nieuwe methode, Mamba. Dit is als een slimme wandelaar die door de foto loopt, van links naar rechts, en onderweg onthoudt wat hij zag. Dit is veel sneller en zuiniger. Maar er zit een addertje onder het gras: omdat hij alleen maar vooruit kijkt, weet hij niet wat er achter hem gebeurt. Als hij bij de rechterkant van de foto is, heeft hij geen idee meer wat er links gebeurde, tenzij hij helemaal opnieuw begint. Om dit op te lossen, lieten andere onderzoekers de wandelaar heen en weer lopen (van links naar rechts, en dan weer terug). Maar dat heen-en-weer lopen kostte veel tijd en energie.

SF-Mamba is de nieuwe uitvinding van deze onderzoekers van Sony. Ze hebben twee slimme trucjes bedacht om de wandelaar nog sneller en slimmer te maken, zonder dat hij hoe dan ook heen en weer hoeft te lopen.

Hier is hoe het werkt, in simpele taal:

1. De "Magische Postbode" (Auxiliary Patch Swapping)

Stel je voor dat de wandelaar (Mamba) een lange rij mensen passeert. Omdat hij alleen vooruit kijkt, mist hij informatie van mensen die hij nog niet heeft gezien.

  • De oude oplossing: Laat de wandelaar twee keer lopen (heen en terug). Dit is traag.
  • De SF-Mamba oplossing: De onderzoekers voegen twee speciale "postbodes" toe aan de rij.
    • De eerste postbode loopt mee naar voren en verzamelt alle informatie van de mensen die hij passeert.
    • Op het einde van de rij geeft deze postbode zijn notities aan een tweede postbode.
    • Deze tweede postbode springt direct naar het begin van de rij en deelt de notities met iedereen die daar staat.
    • Het resultaat: Iedereen in de rij weet nu ook wat er verderop gebeurt, zonder dat de wandelaar hoeft om te keren. Het is alsof je een korte, snelle boodschap doorgeeft aan het begin van de lijn, zodat iedereen "toekomstige" informatie heeft.

2. De "Bus-Strategie" (Batch Folding)

Stel je voor dat je een fabriek hebt waar je kleine pakketjes (beelden) verwerkt.

  • Het probleem: De fabrieksmachine (de GPU-chip) is ontworpen om grote ladingen tegelijk te verwerken. Als je maar één klein pakketje per keer stuurt, staat de machine half leeg en is hij traag. Dit gebeurt vaak bij kleine foto's.
  • De SF-Mamba oplossing: In plaats van één pakketje per keer te sturen, bundelen ze er een heleboel kleine pakketjes samen in één lange, grote bundel (alsof je kleine busjes in één grote bus stopt).
  • De veiligheidscheck: Om te voorkomen dat de informatie van de ene foto in de andere lekt (alsof passagiers van bus A in bus B stappen), resetten ze het geheugen van de machine op het exacte moment dat ze van de ene foto naar de andere springen.
  • Het resultaat: De machine kan nu voluit draaien, zelfs met kleine foto's, omdat hij denkt dat hij één gigantisch pakket verwerkt. Dit maakt het proces enorm veel sneller.

Waarom is dit belangrijk?

Met deze twee trucjes (de postbode en de bus-strategie) is SF-Mamba:

  1. Sneller: Het verwerkt beelden veel sneller dan de huidige beste methoden.
  2. Slimmer: Het mist geen informatie, omdat het "toekomstige" details alsnog weet.
  3. Efficiënter: Het werkt goed op zowel kleine als heel grote foto's.

Kortom: SF-Mamba is als het vinden van een manier om een lange, ingewikkelde tocht te maken zonder ooit te hoeven teruglopen, terwijl je toch weet wat er achter je gebeurd is, en dit allemaal doet met een busje dat volgepropt is met passagiers in plaats van met een eenzame wandelaar. Dit maakt het perfect voor toekomstige toepassingen zoals medische beeldvorming, drones of robots die in real-time moeten denken.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →