Slow-Fast Inference: Training-Free Inference Acceleration via Within-Sentence Support Stability

Het artikel introduceert Slow-Fast Inference, een trainingsvrij raamwerk dat de inferentieversnelling bereikt door generatie te splitsen in frequente snelle stappen met een compacte geheugengebruik en zeldzame langzame stappen die de context bij semantische grenzen ververst, waardoor de doorvoer met 1,6 tot 14,4 keer toeneemt zonder kwaliteitsverlies.

Xingyu Xie, Zhaochen Yu, Yue Liao, Tao Wang, Kim-Chuan Toh, Shuicheng Yan

Gepubliceerd 2026-03-13
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een heel lang verhaal moet vertellen, maar je hebt een zeer slecht geheugen. Om het verhaal coherent te houden, moet je bij elke nieuwe zin terugkijken naar alles wat je eerder hebt gezegd.

In de wereld van kunstmatige intelligentie (AI) gebeurt precies dit. Als een AI een lang antwoord schrijft, moet hij bij elke nieuwe woordje terugkijken naar de hele geschiedenis van het gesprek. Dit is als een student die bij elke zin van een proefwerk de hele schoolboekenkast opnieuw moet doorzoeken. Het kost enorm veel tijd en energie, vooral als het gesprek heel lang wordt.

De onderzoekers van dit paper hebben een slimme oplossing bedacht die ze Slow-Fast Inference (SFI) noemen. Laten we het uitleggen met een paar alledaagse analogieën.

Het Probleem: De "Alles-Lezen" Methode

Stel je voor dat je een detective bent die een moordonderzoek doet. Je hebt duizenden pagina's aan bewijsmateriaal.

  • De oude manier: Bij elke nieuwe aanwijzing die je vindt, lees je alle duizend pagina's opnieuw door om te zien of er een link is. Dit is extreem traag.
  • Het nieuwe idee: De onderzoekers merkten iets interessants op: binnen één zin, of zelfs een heel alinea, verandert de focus van de detective niet zo snel. Als je praat over een "hond", blijft je aandacht de hele zin gericht op die hond. Pas als je overstapt naar een nieuw onderwerp (bijvoorbeeld "de weer"), moet je je geheugen opnieuw opfrissen.

De Oplossing: Slow-Fast Inference (SFI)

Deze methode splitst het werk op in twee soorten stappen, net als een auto die wisselt tussen een snelle cruise en een volledige controle.

1. De "Fast Steps" (De Snelle Cruise)

Tijdens het grootste deel van het schrijven (bijvoorbeeld binnen één zin) doet de AI een snelle stap.

  • Hoe werkt het? In plaats van de hele boekenkast door te zoeken, kijkt de AI alleen naar een kleine, handige notitiekaart. Op deze kaart staan alleen de belangrijkste dingen: wat er net gezegd is (recente context), een paar vaste ankers (zoals de titel van het verhaal), en een selectie van de allerbelangrijkste oude feiten die nog relevant zijn.
  • Het voordeel: Dit is supersnel. De AI hoeft niet alles te lezen, alleen de notitiekaart.

2. De "Slow Steps" (De Volledige Controle)

Af en toe, bijvoorbeeld als de zin eindigt of als het onderwerp verandert (een "semantische grens"), doet de AI een trage stap.

  • Hoe werkt het? Hier stopt de AI even met snel typen. Hij leest de hele geschiedenis opnieuw door (de volledige boekenkast).
  • Het doel: Hij gebruikt deze diepe lezing om zijn notitiekaart te updaten. Hij kijkt: "Welke oude feiten zijn nu nog belangrijk voor het vervolg?" en verwijdert de oude, onbelangrijke dingen.
  • De Trigger: Dit gebeurt niet willekeurig. De AI wacht tot hij een punt, een vraagteken of een nieuwe alinea ziet, of tot hij een bepaald aantal woorden heeft geschreven zonder pauze.

De "Selecteur": De Slimme Bibliothecaris

Tussen de snelle en trage stappen zit een slimme robot genaamd de Selecteur.

  • Stel je voor dat de AI na de "trage stap" een enorme berg bewijsmateriaal heeft. De Selecteur is de bibliothecaris die die berg bekijkt en zegt: "Oké, we houden alleen de top 20% van de meest interessante documenten op de notitiekaart. De rest doen we weg voor nu."
  • Dit gebeurt zonder dat de AI opnieuw getraind hoeft te worden. Het is een slimme truc die direct op bestaande modellen werkt.

Waarom is dit zo geweldig?

  1. Snelheid: Omdat de AI 90% van de tijd alleen naar zijn kleine notitiekaart kijkt (in plaats van de hele geschiedenis), wordt hij 1,6 tot 14 keer sneller.
  2. Kwaliteit: Omdat de AI regelmatig (bij de "trage stappen") de hele geschiedenis controleert, vergeet hij niets belangrijks. De kwaliteit van het antwoord blijft net zo goed als bij de oude, trage methode.
  3. Geen training nodig: Je hoeft de AI niet opnieuw te leren. Je kunt dit gewoon op bestaande modellen toepassen, alsof je een nieuwe versnellingsbak in je auto installeert.

Samenvatting in één zin

Slow-Fast Inference is als een slimme schrijver die tijdens het typen alleen naar zijn laatste zin kijkt (snel), maar bij elk puntje of nieuwe alinea even stopt om zijn geheugen op te frissen en te beslissen wat er echt belangrijk is om te onthouden (langzaam), waardoor hij veel sneller is zonder iets te vergeten.

Dit maakt het mogelijk om AI's veel langer en complexer te laten redeneren zonder dat ze vastlopen in de tijd of het geheugen.