OSCAR: Online Soft Compression And Reranking

OSCAR is een nieuwe online zachte compressie- en herordeningstechniek die de rekentijd van Retrieval-Augmented Generation-pipelines aanzienlijk verkort zonder in te leveren op de nauwkeurigheid, door dynamisch en query-afhankelijk informatie te comprimeren tijdens de inferentie.

Maxime Louis, Thibault Formal, Hervé Dejean, Stéphane Clinchant

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🚀 OSCAR: De Slimme Boekhouder voor AI

Stel je voor dat een Grote Taalmodel (LLM) een supergeleerde is die alles weet, maar die soms vergeten is wat er gisteren in de krant stond. Om hem te helpen, gebruiken we RAG (Retrieval-Augmented Generation). Dat is als het geven van een stapel boeken (documenten) aan de geleerde voordat hij een vraag beantwoordt.

Het probleem:
Stel, je vraagt: "Wie won de Palme d'Or?" De computer zoekt in een enorme bibliotheek en haalt 10 dikke boeken op. Als hij al die boeken moet lezen voordat hij antwoordt, duurt het lang. Het is alsof je een hele bibliotheek moet doorzoeken voor één vraag. Dit kost veel tijd en rekenkracht (energie).

De oude oplossingen:

  1. Hard comprimeren (Samenvatten): Je vraagt iemand om de 10 boeken te samenvatten tot 1 pagina. Dat gaat snel, maar je mist vaak belangrijke details. Het is alsof je een film bekijkt in 30 seconden: je snapt het verhaal, maar de nuances zijn weg.
  2. Zachte comprimeren (Offline): Je maakt van tevoren een soort "samenvatting in code" van alle boeken. Maar dit werkt niet goed als je nu een specifieke vraag hebt, omdat de samenvatting niet op die vraag is afgestemd.

✨ De Oplossing: OSCAR

De onderzoekers van NAVER LABS hebben OSCAR bedacht. De naam staat voor Online Soft Compression And Reranking.

Hier is hoe het werkt, met een paar vergelijkingen:

1. De "Slimme Vertaler" (Query-afhankelijk)

Stel je voor dat je een vraag stelt aan een tolk.

  • Bij de oude methoden vertaalde de tolk het hele boek, ongeacht wat je vroeg.
  • Bij OSCAR kijkt de tolk eerst naar jouw vraag. Vraag je naar de kleding in het boek? Dan vertaalt hij alleen de beschrijvingen van kleding en negeert hij de dialogen. Vraag je naar de locatie? Dan vertaalt hij alleen de landschappen.

OSCAR maakt dus een dynamische samenvatting die perfect past bij de vraag die je net hebt gesteld. Het is alsof je een magische bril opzet die alleen de informatie laat zien die je nodig hebt, en de rest onzichtbaar maakt.

2. De "Snelle Boekhouder" (Online & Snel)

Sommige methoden doen dit "offline" (ze bereiden alles van tevoren voor, wat veel ruimte kost). OSCAR doet dit online, terwijl de vraag wordt gesteld.

  • Vergelijking: Het is alsof je een boekhouding doet terwijl je winkelt, in plaats van alles thuis uit te werken.
  • OSCAR verandert de 10 dikke boeken in een paar kleine, krachtige "geheugentokens". In plaats van 10 boeken van 100 pagina's te lezen, leest de AI nu slechts 10 kleine notitiekaartjes.
  • Resultaat: De AI is 2 tot 5 keer sneller, maar antwoordt net zo goed als wanneer hij de hele bibliotheek had gelezen.

3. De "Dubbeltalent" (Compressie + Rangschikking)

OSCAR doet nog iets moois. Vaak moet je eerst alle boeken zoeken, ze dan rangschikken (welke is het belangrijkst?) en ze dan samenvatten.
OSCAR doet dit in één keer. Terwijl het de boeken samenvat, zegt het ook: "Deze twee boeken zijn het belangrijkst voor jouw vraag, die andere twee zijn minder relevant."

  • Vergelijking: Het is alsof je een assistent hebt die niet alleen de relevante pagina's uit het boek haalt, maar ook direct zegt: "Lees eerst pagina 5 en 10, de rest is onbelangrijk." Hierdoor bespaar je dubbel werk.

🏆 Wat levert het op?

De onderzoekers hebben OSCAR getest op verschillende vragen (van algemene kennis tot medische vragen).

  • Snelheid: Het is 2 tot 5 keer sneller dan de huidige beste methoden.
  • Nauwkeurigheid: De antwoorden zijn even goed (soms zelfs beter) als wanneer je de volledige teksten zou gebruiken. Er is bijna geen verlies aan kwaliteit.
  • Flexibiliteit: Het werkt goed voor kleine AI-modellen (1 miljard parameters) tot hele grote modellen (24 miljard parameters).

🎯 Conclusie in één zin

OSCAR is als een slimme, snelle assistent die voor je uit de bibliotheek haalt wat je echt nodig hebt, de overbodige rommel weglaat, en je in een flits het juiste antwoord geeft, zonder dat je de hele bibliotheek hoeft te doorzoeken.

Dit maakt het mogelijk om AI-toepassingen veel sneller en goedkoper te maken, terwijl ze slimmer blijven.