ConFu: Contemplate the Future for Better Speculative Sampling

Dit paper introduceert ConFu, een nieuw raamwerk voor speculatieve decoding dat draft-modellen in staat stelt de toekomstige generatierichting te anticiperen via 'contemplate tokens' en soft prompts, waardoor de acceptatiekans en snelheid van LLM-inferentie aanzienlijk worden verbeterd ten opzichte van bestaande methoden zoals EAGLE-3.

Zongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou Sun

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

ConFu: Laat de AI "in de toekomst kijken" voor snellere antwoorden

Stel je voor dat je een zeer slimme, maar tragere robot hebt die verhalen schrijft (de doelmodel). Hij is heel goed, maar elke keer als hij een woord bedenkt, moet hij heel hard nadenken. Dit duurt lang.

Om dit sneller te maken, gebruiken we een truc genaamd Speculative Decoding. Hierbij hebben we een kleine, snelle robot (het draft model) die voor de grote robot een paar woorden voorspelt. De grote robot kijkt dan snel of deze woorden kloppen. Als ze kloppen, schrijft hij ze direct neer. Als ze niet kloppen, moet hij alsnog zelf nadenken.

Het probleem tot nu toe? De kleine robot kijkt alleen naar wat er nu staat en probeert het volgende woord te raden. Maar als hij één klein foutje maakt, raakt hij de draad kwijt. De grote robot moet dan steeds meer van zijn voorspellingen verwerpen, waardoor het weer traag wordt. Het is alsof de kleine robot blindelings een pad volgt, terwijl de grote robot eigenlijk een heel ander pad in gedachten heeft.

De oplossing: ConFu (Contemplate the Future)

De onderzoekers van dit papier hebben een slimme oplossing bedacht: ConFu. Het idee is simpel maar krachtig: laat de kleine robot niet alleen naar het verleden kijken, maar ook even een glimp opvangen van waar de grote robot naartoe wil.

Hier is hoe het werkt, met een paar analogieën:

1. De "Denk-pauze" (Contemplate Tokens)

Stel je voor dat de grote robot een gedachte heeft die hij nog niet heeft uitgesproken. In het verleden moest hij die gedachte hardop uitspreken voordat hij verder kon, wat tijd kostte.
ConFu introduceert een geheime knop (een "contemplate token"). Als de grote robot op deze knop drukt, denkt hij even stil na over zijn volgende grote stap. Hij maakt geen nieuw woord, maar een soort geestelijke aanwijzing (een "thought vector").

  • De analogie: Het is alsof de grote robot een post-it note met een hint schrijft voor de kleine robot. "Ik ga nu over de zee praten," staat erop. De kleine robot ziet deze hint en kan nu veel beter raden welke woorden over de zee gaan, in plaats van zomaar wat te gissen.

2. De "Slimme Vertaler" (MoE - Mixture of Experts)

Soms is de hint "over de zee" nuttig, maar soms is de hint "over wiskunde" nodig. Een vaste hint werkt niet voor alles.
ConFu gebruikt een slimme vertaler (een MoE-systeem). Deze vertaler kijkt naar de context en kiest de juiste "expert" om de hint te formuleren.

  • De analogie: Stel je voor dat je een reisplanner hebt. Als je naar het strand gaat, geeft hij je een kaart met strandinformatie. Als je naar de bergen gaat, geeft hij je een kaart met bergroutes. ConFu past de hint automatisch aan aan de situatie, zodat de kleine robot altijd de juiste informatie krijgt.

3. Oefenen met "Ankers" (Training)

Om deze hints goed te leren geven, trainen ze het systeem op een slimme manier. Ze kiezen willekeurige punten in een tekst (de "ankers") en laten het systeem oefenen om de toekomst te voorspellen vanaf die punten.

  • De analogie: Het is alsof je een student niet laat oefenen met het hele boek, maar alleen met belangrijke hoofdstukken. Als de student die hoofdstukken goed begrijpt, kan hij de rest van het verhaal ook beter voorspellen. Dit maakt het systeem robuust en snel.

Wat levert dit op?

In tests met moderne AI-modellen (zoals Llama-3) bleek dat ConFu veel beter werkt dan de vorige beste methode (EAGLE-3).

  • Minder fouten: De kleine robot maakt minder fouten omdat hij de "toekomst" van de grote robot al weet.
  • Sneller: De grote robot hoeft minder vaak te verwerpen en opnieuw te beginnen.
  • Resultaat: De tekst wordt 8% tot 11% sneller gegenereerd, zonder dat de kwaliteit van de antwoorden verslechtert.

Kortom:
ConFu is als het geven van een voorspelling aan een snelle assistent: "Ik ga nu over X praten." Hierdoor hoeft de assistent niet meer te gissen, maar kan hij direct de juiste woorden kiezen. Hierdoor werkt de hele AI veel sneller en efficiënter, terwijl de "slimme" robot zijn gedachten niet eens hoeft te veranderen. Het is een slimme manier om de toekomst te benutten voor een snellere present.