COMI: Coarse-to-fine Context Compression via Marginal Information Gain

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek hebt vol met boeken, maar je hebt slechts één minuut de tijd om het antwoord op één specifieke vraag te vinden. Normaal gesproken zou je de hele bibliotheek moeten doorzoeken, wat veel tijd kost en je hersenen overbelast. Dit is precies het probleem waar grote taalmodellen (zoals de slimme AI's van vandaag) mee worstelen: ze moeten enorme hoeveelheden tekst verwerken om een vraag te beantwoorden, wat traag is en veel rekenkracht vergt.

Deze paper introduceert een slimme oplossing genaamd COMI. Het is als een super-efficiënte bibliothecaris die niet alleen de boeken doorzoekt, maar ook weet welke pagina's je echt nodig hebt en welke je kunt negeren.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: Te veel ruis, te weinig signaal

Stel je voor dat je een gesprek voert met iemand die heel veel praat, maar steeds dezelfde dingen herhaalt of over onbelangrijke dingen begint. Als je probeert te onthouden wat er gezegd is, raak je de belangrijke punten kwijt in de ruis.

Bestaande methoden kijken vaak alleen naar wat "relevant" klinkt. Ze houden dus alle zinnen vast die iets met je vraag te maken hebben. Het probleem? Ze houden ook vast aan de herhalingen. Het is alsof je tien keer hetzelfde verhaal hoort en denkt dat je tien keer meer informatie hebt, terwijl het maar één keer is.

2. De Oplossing: COMI (De Slimme Bibliothecaris)

COMI gebruikt een nieuwe manier van denken, gebaseerd op iets dat ze Marginal Information Gain (MIG) noemen. Laten we dit uitleggen met een analogie:

Stel je hebt een tas vol met puzzelstukjes en je moet een specifieke foto maken (je vraag).

Relevantie: Hoe goed past het stukje bij de foto?
Redundantie (Overbodigheid): Heb je dit stukje al in je tas? Of lijkt het precies op een ander stukje dat je al hebt?

COMI zegt: "Ik wil niet alleen de stukjes die bij de foto passen, maar ik wil ook de stukjes die uniek zijn." Als je al een stukje hebt dat de lucht voorstelt, wil je geen tweede stukje dat ook de lucht voorstelt, zelfs als dat tweede stukje ook "relevant" is. Je wilt juist het stukje dat de boom of de auto toont, omdat dat nieuwe informatie toevoegt.

3. Hoe werkt COMI? Twee Slimme Stappen

COMI doet dit in twee fases, net als het sorteren van een grote stapel papieren:

Fase 1: Groepen Indelen (De Ruwe Scherf)
Stel je hebt een lang verhaal in 8 hoofdstukken. COMI kijkt niet naar elk woord apart, maar eerst naar de hoofdstukken.

Het vraagt zich af: "Welk hoofdstuk bevat de meeste unieke, belangrijke informatie voor mijn vraag?"
Als hoofdstuk 3 heel belangrijk en uniek is, krijgt het een grote ruimte in de samenvatting (we comprimeren het weinig).
Als hoofdstuk 7 saai is of veel herhaalt wat in hoofdstuk 3 staat, krijgt het weinig ruimte (we comprimeren het veel).
Analogie: Het is alsof je een reisverslag maakt. Je besteedt veel ruimte aan het beschrijven van de prachtige bergtop (belangrijk & uniek), maar slechts één zin aan het stukje waar je door de saaie tunnel reed (herhaling/overbodig).

Fase 2: Woorden Samenvoegen (De Fijne Scherf)
Nu, binnen die belangrijke hoofdstukken, kijkt COMI naar de individuele zinnen of woorden.

Het pakt de woorden die het meest uniek en belangrijk zijn en "plakt" ze samen tot één krachtige samenvatting.
Woorden die te veel op elkaar lijken (redundant) worden opgeslokt in de samenvatting, zodat ze niet meer apart hoeven te worden opgeslagen.
Analogie: In plaats van tien zinnen te schrijven over hoe mooi de zonsondergang was, schrijf je één perfecte zin die alle gevoelens van die tien zinnen samenvat, zonder de herhaling.

4. Waarom is dit zo goed?

De auteurs hebben dit getest op verschillende taken, zoals het beantwoorden van vragen over lange verhalen of het samenvatten van nieuwsartikelen.

Resultaat: Zelfs als ze de tekst 32 keer korter maken (een enorme compressie), presteert COMI veel beter dan andere methoden.
Voorbeeld: Op een test met NaturalQuestions (een soort quiz over Wikipedia-artikelen) verbeterde COMI het antwoordpercentage met ongeveer 25 punten vergeleken met de beste bestaande methoden. Dat is alsof je van een onvoldoende naar een uitstekend cijfer gaat.

Conclusie

COMI is als een slimme filter die niet alleen kijkt naar wat belangrijk is, maar ook naar wat nieuw is. Het zorgt ervoor dat de AI niet wordt overladen met herhalingen, maar alleen de "goudklompjes" van informatie behoudt. Hierdoor kunnen AI-modellen sneller werken, minder energie verbruiken en toch betere antwoorden geven, zelfs als ze moeten lezen in boeken die honderden pagina's lang zijn.

Kortom: COMI leert de AI om niet alleen te lezen, maar ook om te begrijpen wat echt belangrijk is en het overtollige weg te laten.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "COMI: Coarse-to-Fine Context Compression via Marginal Information Gain", gepresenteerd op ICLR 2026, in het Nederlands.

Probleemstelling

Grote Taalmodellen (LLMs) presteren uitstekend op diverse taken, maar hun toepassing in scenario's met lange contexten wordt gehinderd door twee hoofdzaken:

Computatiekosten: De kwadratische complexiteit van het attentie-mechanisme in Transformers maakt het verwerken van lange sequenties inefficiënt.
Informatieredundantie: Bestaande contextcompressiemethoden leiden vaak tot verlies van relevante informatie of behouden te veel redundante informatie.
- Taak-agnostische methoden (zonder query) verliezen vaak query-relevante informatie.
- Taak-bewuste methoden (met query) behouden wel relevante informatie, maar negeren vaak de inherente redundantie in natuurlijke taal. Dit resulteert in het behouden van zeer vergelijkbare, redundante content, wat de prestaties van het model kan verstoren ("over-similariteit").

Bestaande dynamische compressie-methoden zijn beperkt omdat ze ofwel lineaire regels volgen, alleen kijken naar relevantie, of geen rekening houden met semantische redundantie tussen compressie-eenheden. De kernvraag is: Hoe kunnen we query-relevante informatie behouden terwijl we semantische redundantie elimineren, zelfs onder hoge compressiepercentages, om zowel relevantie als diversiteit te optimaliseren?

Methodologie: COMI

De auteurs stellen COMI (Coarse-to-Fine Context Compression via Marginal Information Gain) voor. Dit is een adaptief framework dat werkt op basis van een encoder-decoder architectuur en gebruikmaakt van een nieuwe metriek: Marginal Information Gain (MIG).

1. Marginal Information Gain (MIG)

MIG is de centrale innovatie. Het is gedefinieerd als de relevantie van een eenheid (token of groep) ten opzichte van de query, minus de semantische redundantie met andere eenheden.

Formule: $G(x_i, q, X) = \text{cosine\_similarity}(x_i, q) - \max_{x_j \in X, j \neq i} (\text{cosine\_similarity}(x_i, x_j))$
Doel: Prioriteit geven aan informatie die zowel relevant is voor de vraag als uniek (laag redundant) ten opzichte van de rest van de context.

2. Twee-staps Compressiestrategie

COMI voert compressie uit in twee fasen:

Fase 1: Grofkorrelige Groepsherschikking (Coarse-Grained Group Reallocation)
- De context wordt opgedeeld in gelijke segmenten (groepen).
- Voor elke groep wordt de MIG berekend op basis van de relevantie met de query en de redundantie met naburige groepen.
- Op basis van de MIG-waarden wordt de compressie-ratio dynamisch toegewezen: groepen met een hoge MIG (hoog waardevol, laag redundant) krijgen een lagere compressie (meer tokens behouden), terwijl groepen met lage MIG zwaarder worden gecomprimeerd.
- Dit zorgt ervoor dat het compressie-budget adaptief wordt toegewezen aan de gebieden met de hoogste informatiewaarde.
Fase 2: Fijnkorrelige Token-samenvoeging (Fine-Grained Token Merging)
- Binnen elke groep worden tokens gefuseerd tot één samengevoegde representatie.
- Tokens worden gewogen op basis van hun intra-groep MIG. Tokens met een hoge MIG (hoog relevant, laag redundant binnen de groep) dragen meer bij aan de samengevoegde vector.
- Dit voorkomt de accumulatie van "relevant maar redundant" content en behoudt de kernsemantiek.

3. Training

Het model wordt getraind met een instructie-tuning aanpak. De encoder, de Layer Semantic Alignment (LSA) module (voor cross-layer semantische uitlijning) en de decoder worden gefinetuned. De decoder wordt alleen bijgewerkt op de attention-matrices ( $W_Q, W_K, W_V, W_O$ ) om kennisextractie te waarborgen.

Belangrijkste Bijdragen

MIG-metriek: Introductie van Marginal Information Gain als een nieuwe maatstaf die taak-relevantie en semantische redundantie gezamenlijk modelleert. Dit overwint de beperkingen van bestaande methoden die alleen naar relevantie kijken.
COMI Framework: Een coarse-to-fine adaptieve compressiestrategie die dynamisch compressie-budgetten herschikt op groepsniveau en redundantie elimineert op token-niveau.
Uitgebreide Experimenten: Omvangrijke evaluaties op vraag-antwoordtaken (QA) en samenvattingen, waarbij COMI aanzienlijk beter presteert dan bestaande baselines, zelfs bij extreme compressie.

Resultaten

De auteurs hebben COMI getest op diverse benchmarks (NaturalQuestions, 2WikiMQA, HotpotQA, NarrativeQA, MultiNews) met verschillende backbones (LLaMA-2-7B, Qwen2-7B).

Prestatieverbetering: COMI presteert met een grote marge beter dan state-of-the-art methoden (zoals Activation Beacon, LongLLMLingua, SnapKV).
- Op het NaturalQuestions-dataset, met een 32x compressie en Qwen2-7B als backbone, boekte COMI een verbetering van ongeveer 25 punten in Exact Match (EM) ten opzichte van de suboptimale baselines.
- Zelfs bij 32x compressie behoudt COMI een hoge nauwkeurigheid, terwijl andere methoden sterk dalen.
Efficiëntie: COMI bereikt een end-to-end snelheidswinst van meer dan 2x ten opzichte van het verwerken van de volledige originele prompt bij 32x compressie, voornamelijk door de verkorte sequentielengte tijdens de generatie.
Robuustheid: De methode werkt effectief op zowel single-hop als multi-hop vragen en op extreem lange teksten (tot 64K tokens in schaalbaarheidstests).
Ablatie-studies: Het verwijderen van zowel de grofkorrelige herschikking als de fijnkorrelige samenvoeging leidt tot een duidelijke daling in prestaties, wat de noodzaak van beide componenten bevestigt. Ook het negeren van redundantie (zowel op groeps- als token-niveau) verslechtert de resultaten aanzienlijk.

Significantie

COMI biedt een fundamentele oplossing voor het "relevance-redundancy dilemma" in lange contexten. Door expliciet redundantie te straffen via de MIG-metriek, zorgt het framework ervoor dat de gecomprimeerde representatie semantisch complementair is in plaats van repetitief. Dit stelt LLMs in staat om effectief te werken met zeer lange contexten zonder dat de kwaliteit van het antwoord inboet, wat essentieel is voor toepassingen zoals Retrieval-Augmented Generation (RAG) en documentanalyse. De methode stelt een nieuwe standaard voor efficiënte en effectieve contextcompressie in grote taalmodellen.