Leveraging Contrastive Learning for a Similarity-Guided Tampered Document Data Generation Pipeline

Deze paper presenteert een nieuwe aanpak voor het genereren van hoogwaardige vervalste documenten via contrastief leren en een crop-evaluatienetwerk, waardoor de prestaties van detectiemodellen op real-world data aanzienlijk verbeteren ten opzichte van bestaande methoden.

Mohamed Dhouib, Davide Buscaldi, Sonia Vanier, Aymen Shabou

Gepubliceerd 2026-02-20
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een detective bent die moet ontdekken of een document (zoals een paspoort, een factuur of een contract) is vervalst. Dit is een heel lastige klus, vooral omdat er maar heel weinig echte voorbeelden zijn van vervalste documenten om op te oefenen. Het is alsof je een brandweerman wilt trainen, maar je hebt geen vuur om mee te oefenen; je moet het dus in een virtuele wereld nabootsen.

Vroeger probeerden computers vervalste documenten te maken met simpele "recepten" (regels). Maar dat ging vaak mis. Het resultaat zag eruit alsof iemand met een plakkaal en een stempel had gewerkt: de letters zaten scheef, de kleuren klopten niet en er waren rare randjes. Het was zo duidelijk nep dat een computer het meteen doorhad, maar een echte vervalser is slimmer en maakt het veel natuurlijker.

De auteurs van dit paper hebben een slimme oplossing bedacht. Ze hebben een nieuwe fabriek gebouwd die vervalste documenten maakt die eruitzien alsof ze door een mens zijn gemaakt. Ze noemen dit een "Similarity-Guided Pipeline" (een proces dat zich laat leiden door gelijkenis).

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De twee slimme assistenten

Om hun fabriek te laten werken, hebben ze twee speciale "assistenten" (neuronale netwerken) getraind. Denk hierbij aan twee zeer kritische keurmeesters:

  • Assistent A: De "Dit past wel"-Checker (De Gelijkenis-Expert)
    Stel je voor dat je een stukje tekst uit een document wilt kopiëren en ergens anders inplakken. Als je dat doet, moet het lettertype, de kleur, de helderheid en de scherpte precies overeenkomen met de omgeving.

    • De oude manier: "Plak het maar ergens neer." (Resultaat: Het ziet er raar uit).
    • De nieuwe manier: Assistent A kijkt naar duizenden kleine stukjes tekst en leert wat "gelijk" betekent. Hij gebruikt een techniek die Contrast Learning heet.
    • De analogie: Het is alsof je iemand leert om twee gelijke sokken te vinden in een lade vol sokken. Hij leert niet alleen dat ze beide rood zijn, maar ook dat ze dezelfde textuur hebben, evenveel plooien hebben en even helder zijn. Als hij twee stukjes tekst vergelijkt, zegt hij: "Ja, deze twee horen bij elkaar, ze lijken precies op elkaar." Als ze niet lijken, zegt hij: "Nee, dat past niet, dat ziet er nep uit."
  • Assistent B: De "Randjes-Check" (De Kwaliteits-Expert)
    Soms plakt iemand een stukje tekst ergens neer, maar snijdt hij per ongeluk de randen van de letters af, of zit er een stukje van de buurman in. Dat is een duidelijke fout.

    • De nieuwe manier: Assistent B kijkt naar de randen van het stukje tekst dat je wilt gebruiken. Hij vraagt zich af: "Is dit een schoon stukje papier, of zit er een letter half afgesneden?"
    • De analogie: Stel je voor dat je een foto uit een krant knipt. Als je de randen van de letters afsnijdt, is het een slechte knip. Assistent B is de persoon die zegt: "Nee, deze knip is te ruw, we gebruiken deze niet. Zoek een stukje waar de letters netjes binnen de lijntjes zitten."

2. De Productielijn

Nu hebben ze deze twee assistenten, en ze zetten ze aan het werk in een fabriek:

  1. Ze nemen een heel groot archief met echte documenten.
  2. Ze knippen duizenden stukjes tekst en lege plekken uit.
  3. Assistent B filtert eerst: "Alles wat een lelijke rand heeft, gaat de prullenbak in." Alleen de perfecte stukjes blijven over.
  4. Vervolgens kiezen ze een plek in een doel-document waar ze iets willen veranderen (bijvoorbeeld een bedrag op een factuur).
  5. Assistent A zoekt in de rest van de stapel naar het perfecte stukje tekst dat eruitziet alsof het daar altijd heeft gestaan. Hij kijkt naar kleur, lettertype en schaduw.
  6. Als ze een match vinden, plakken ze het erop.

Het resultaat? Een vervalst document dat er zo natuurlijk uitziet, dat zelfs een mens het moeilijk kan zien. Er zijn geen rare randjes en de kleuren kloppen perfect.

3. Waarom is dit belangrijk?

Vroeger trainden ze hun detectie-modellen (de "detectives") op die slechte, neppe documenten. Daardoor leerden de detectives alleen maar om die rare randjes te zien. Als ze dan een echte vervalsing zagen (die er perfect uitzag), faalden ze.

Met deze nieuwe fabriek trainen ze de detectives op super-natuurlijke vervalsingen.

  • Het resultaat: De detectives worden veel slimmer. Ze leren niet alleen op "rare randjes" te letten, maar op subtiele details die echt vervalsers gebruiken.
  • De test: Ze hebben hun nieuwe detectives getest op echte, door mensen gemaakte vervalsingen. De resultaten waren veel beter dan met de oude methoden. Het is alsof je een brandweerman traint met een echt brandend huis in plaats van met een tekening van een huis; hij is dan veel beter voorbereid op de echte wereld.

Samenvattend

De auteurs hebben een slimme manier bedacht om duizenden perfecte nep-documenten te maken met behulp van twee AI-assistenten: één die let op gelijkenis (past dit erbij?) en één die let op kwaliteit (is het netjes geknipt?). Hierdoor kunnen ze betere "detectives" trainen die echte vervalsingen veel beter kunnen opsporen. Ze hebben deze hele fabriek en de data zelfs gratis beschikbaar gesteld voor iedereen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →