Dripper: Token-Efficient Main HTML Extraction with a Lightweight LM

Dit paper introduceert Dripper, een lichtgewicht framework dat hoofdinhoud van webpagina's efficiënt en nauwkeurig extraheert door middel van geconstrueerde sequentiemarkering met kleine taalmodellen, waardoor het de prestaties van zware generatieve modellen benadert met een veel lagere rekenkost.

Mengjie Liu, Jiahui Peng, Wenchang Ning, Pei Chu, Jiantao Qiu, Ren Ma, He Zhu, Rui Min, Lindong Lu, Linfeng Hou, Kaiwen Liu, Yuan Qu, Zhenxiang Li, Chao Xu, Zhongying Tu, Wentao Zhang, Conghui He

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat het internet een gigantische, chaotische bibliotheek is. Elke dag worden er miljarden nieuwe boeken (webpagina's) toegevoegd. Maar deze boeken zijn niet netjes gebonden; ze zitten vol met losse bladzijden, reclamefolders, ingekleefde post-it's, en soms zelfs hele mappen met instructies over hoe het boek eruit moet zien, maar zonder de eigenlijke tekst.

Om kunstmatige intelligentie (AI) slim te maken, moeten we deze boeken "lezen" en de echte tekst eruit halen. Dit heet content extraction.

Het probleem is dat de oude methoden (de "heuristic extractors") als een blinde hond zijn die probeert een boek te lezen door alleen te kijken naar hoe dik de pagina's zijn. Soms lukt het, maar vaak haalt hij de verkeerde bladzijden eruit of laat hij de belangrijkste stukken over.

Aan de andere kant hebben we de super-intelligente AI-modellen (de "Grote Taalmodellen"). Die kunnen perfect lezen en begrijpen wat belangrijk is. Maar ze zijn ook als een dure, zware vrachtwagen: ze verbruiken enorm veel brandstof (rekenkracht), zijn traag, en kunnen soms beginnen te fantaseren over dingen die er niet staan (hallucinaties). Als je miljarden pagina's moet verwerken, is deze vrachtwagen te duur en te traag.

Dripper is de oplossing die de auteurs hebben bedacht. Het is als een slimme, snelle en goedkope robot die precies weet hoe hij de bibliotheek moet opruimen.

Hier is hoe Dripper werkt, in drie simpele stappen:

1. De Twee Sporen (De "Vereenvoudiging" en de "Originele Kopie")

Stel je voor dat je een ingewikkeld architecturaal plan hebt (de ruwe HTML-code van een website).

  • Spoor A (De Schets): Dripper maakt eerst een heel snelle, ruwe schets van het plan. Hij verwijdert alle onnodige details (reclame, scripts, opmaak) en houdt alleen de hoofdlijnen over. Dit is heel kort en makkelijk te lezen.
  • Spoor B (Het Origineel): Tegelijkertijd houdt hij een perfecte, gedetailleerde kopie van het originele plan achter de hand, maar zonder de rommel.

2. De Slimme Robot (Het Klein Model)

In plaats van de zware vrachtwagen (het grote AI-model) te gebruiken om het hele ingewikkelde plan te lezen, laat Dripper een kleine, snelle robot (een klein taalmodel van slechts 0,6 miljard parameters) naar de Schets (Spoor A) kijken.

Omdat de schets kort en duidelijk is, kan deze kleine robot razendsnel beslissen: "Dit stukje is de echte tekst (hoofdinhoud)" of "Dit stukje is reclame (rommel)".

  • Het geheim: De robot hoeft niet de hele tekst te herschrijven (wat fouten kan veroorzaken). Hij hoeft alleen maar een lijstje te maken met ja/nee-antwoorden voor elk stukje van de schets. Dit is veel veiliger en sneller.

3. De Magische Herconstructie

Zodra de robot het lijstje met ja/nee-antwoorden heeft, pakt Dripper die lijst en past deze toe op de Originele Kopie (Spoor B).

  • Waar de robot "JA" zei, wordt het stukje uit de originele kopie bewaard.
  • Waar de robot "NEE" zei, wordt het verwijderd.

Het resultaat? Je krijgt de perfecte, schone tekst terug, met alle originele opmaak en structuur, maar zonder de rommel. En dit gaat zo snel dat je op één computer (een A100 GPU) 3 pagina's per seconde kunt verwerken.

Waarom is dit zo belangrijk?

  • Snelheid en Kosten: Het is 22 keer sneller en goedkoper dan het gebruik van de zware AI-modellen, maar bijna net zo slim.
  • Geen Dromen: Omdat de robot alleen labels geeft en geen tekst herschrijft, "droomt" hij geen nieuwe feiten. De tekst is 100% wat er op de website stond.
  • Beter voor AI: De auteurs hebben bewezen dat als je AI-modellen traint op data die met Dripper is schoongemaakt, die AI-modellen slimmer worden dan wanneer ze trainen op data van de oude, trage methoden. Het is alsof je een student leert met een goed georganiseerd boek in plaats van een rommelige stapel krantenknipsels.

Kortom: Dripper is de slimme, efficiënte "schoonmaakrobot" voor het internet. Hij maakt het mogelijk om de enorme hoeveelheid informatie op het web te gebruiken om onze AI's slimmer te maken, zonder dat we daarvoor een fabriek aan computers nodig hebben.