Tiny Recursive Reasoning with Mamba-2 Attention Hybrid

Dit onderzoek toont aan dat het vervangen van Transformer-blokken in een recursief redeneermodel door Mamba-2-hybride operatoren de redeneercapaciteit behoudt en de prestaties op abstracte taken zoals ARC-AGI-1 verbetert door een bredere dekking van correcte oplossingen.

Wenlong Wang, Fergal Reid

Gepubliceerd 2026-03-16
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De Kernvraag: Kan een slimme "snelle" motor een "denkende" auto worden?

Stel je voor dat je een heel slimme, maar kleine robot hebt (een kunstmatige intelligentie) die moet oplossen: "Hoe kom ik van A naar B in dit doolhof?" of "Wat is het volgende patroon in deze puzzel?"

Vroeger dachten mensen: "Om slim te zijn, moet de robot enorm groot zijn (miljarden parameters)." Maar recent onderzoek heeft laten zien dat je ook heel slim kunt zijn als je langzamer en dieper denkt, zelfs met een heel klein brein. Dit heet recursief redeneren.

In plaats van direct het antwoord te schreeuwen, laat je de robot in zijn hoofd een paar keer "nadenken" over zijn eigen gedachten, zonder dat hij hardop iets zegt. Hij verfijnt zijn ideeën in het geheim.

Het Experiment: De Motor wisselen

De onderzoekers (Wang en Reid van Intercom) hadden een heel succesvol klein model genaamd TRM. Dit model gebruikte een specifieke soort "motor" (de Transformer-blokken) om te denken. Deze motor is goed, maar misschien niet de enige optie.

Ze vroegen zich af: "Wat gebeurt er als we deze motor vervangen door een ander type, genaamd Mamba-2?"

De Analogie:

  • De oude motor (Transformer): Denk aan een team van onderzoekers die allemaal tegelijk naar een whiteboard kijken en alles bespreken. Ze zijn goed in het zien van verbanden overal, maar het is een beetje rommelig en traag als het team groeit.
  • De nieuwe motor (Mamba-2): Denk aan een zeer efficiënte, snelle solopionier die informatie één voor één verwerkt, alsof hij een lange rij poststukken doorloopt. Hij is razendsnel en slim in het onthouden van wat hij net zag, maar hij kijkt niet altijd terug naar alles wat hij al heeft gezien.

De onderzoekers wilden weten: Als we de "solopionier" (Mamba-2) in het "denkproces" van de robot stoppen, wordt hij dan dommer, of juist slimmer?

Wat deden ze?

Ze bouwden een hybride versie. Ze namen de snelle, efficiënte Mamba-2-motor, maar lieten hem samenwerken met een klein beetje van de oude "whiteboard"-techniek (Attention). Zo kregen ze het beste van twee werelden: snelheid én het vermogen om verbanden te zien.

Ze hielden de grootte van de robot exact hetzelfde (ongeveer 6,8 miljoen "hersencellen"), zodat het eerlijk was.

De Resultaten: Meer opties, net zo goed kiezen

Toen ze dit nieuwe model testten op de beroemde ARC-AGI-puzzels (een soort IQ-test voor AI), gebeurde er iets fascinerends:

  1. Beter "veilig spelen" (Coverage): Het nieuwe model (Mamba-hybrid) bedacht meer verschillende goede oplossingen. Als je het model 100 keer laat denken, had hij in 100% van de gevallen de juiste oplossing ergens in zijn lijstje staan. De oude robot deed dit iets minder vaak.

    • Analogie: Stel je voor dat je een sleutelbos hebt. De oude robot had 10 sleutels, waarvan 1 goed was. De nieuwe robot had 15 sleutels, waarvan 1 goed was. De nieuwe robot heeft dus meer kans dat je de juiste sleutel vindt als je er eentje uitpakt.
  2. Net zo goed kiezen (Selection): Het interessante deel is dat de nieuwe robot net zo goed was in het kies van de allerbeste oplossing als de oude robot.

    • Analogie: Hoewel de nieuwe robot meer sleutels had, was hij net zo slim in het direct de juiste sleutel uit het bos te halen als de oude robot. Hij werd niet "verward" door al die extra opties.

De winst: Op de officiële test (pass@2) was het nieuwe model 2% beter. Dat klinkt klein, maar in de wereld van AI-puzzels is dat een enorme sprong.

Waarom werkt dit?

Het onderzoek suggereert dat de "solopionier" (Mamba-2) op een andere manier door de puzzel "wandelt" dan de "teamwerker" (Transformer).

  • De oude robot denkt op één manier en komt snel tot een conclusie.
  • De nieuwe robot denkt op een iets andere manier, waardoor hij andere paden in het doolhof ontdekt die de oude robot over het hoofd zag.

Hierdoor heeft de nieuwe robot een diverser assortiment aan goede antwoorden. Hij is niet per se "slimmer" in het kiezen van het allerbeste antwoord, maar hij is veel beter in het verzamelen van goede ideeën.

De Belangrijkste Lessen

  1. Klein kan slim zijn: Je hoeft geen gigantische computer te hebben om slim te zijn; als je slim denkt (recursief), werkt het ook met kleine modellen.
  2. Mamba-2 is een goede kandidaat: De nieuwe, snellere technologie (Mamba-2) kan de plaats innemen van de oude technologie in denk-processen zonder de intelligentie te verliepen. Sterker nog, het maakt het model breder in zijn denkvermogen.
  3. Stabiliteit is key: Ze ontdekten ook dat een specifieke technische instelling (het gebruik van "post-normalisatie") cruciaal was om te voorkomen dat de robot "dwaas" werd na het denken van te veel stappen.

Conclusie

Dit paper laat zien dat we de "motor" van onze denkende robots kunnen vervangen door snellere, efficiëntere versies. Het resultaat is een robot die net zo goed kiest, maar die veel meer goede ideeën in zijn hoofd heeft. Het is alsof je een slimme detective vervangt door een nog snellere detective die tegelijkertijd 10 verschillende theorieën kan bedenken, waardoor de kans dat hij de dader vindt, groter wordt.

Dit is een eerste stap naar het bouwen van AI's die niet alleen groter worden, maar slimmer denken met minder energie.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →