DOCFORGE-BENCH: A Comprehensive 0-shot Benchmark for Document Forgery Detection and Analysis

Each language version is independently generated for its own context, not a direct translation.

DOCFORGE-BENCH: De "Gevarenkaart" voor Vervalste Documenten

Stel je voor dat je een detective bent die moet zoeken naar vervalste documenten: een valse rekening, een neppaspoort of een aangepaste factuur. In de wereld van kunstmatige intelligentie (AI) hebben we al veel "detectives" (software) die goed zijn in het vinden van vervalsingen op gewone foto's (zoals een gemanipuleerd portret van een beroemdheid).

Maar deze paper, getiteld DOCFORGE-BENCH, vertelt ons een heel vervelend nieuws: diezelfde detectives zijn volledig verloren als ze te maken krijgen met documenten.

Hier is wat de onderzoekers hebben ontdekt, vertaald naar begrijpelijke taal:

1. Het Probleem: De "Verkeerde Brillen"

De onderzoekers hebben 14 verschillende AI-detectives getest op 8 soorten documenten (van bonnetjes tot paspoorten). Ze deden dit op een eerlijke manier: ze gaven de AI's hun standaard "geleerde" kennis en lieten ze niets extra leren over documenten. Dit noemen ze "zero-shot" (een keer proberen zonder te oefenen).

Het resultaat? De AI's faalden bijna volledig.

Ze konden wel zien dat er iets mis was (ze waren slim genoeg om te zeggen: "Hé, hier is iets veranderd!").
Maar ze konden niet zeggen waar precies. Ze zagen de vervalsing als een vage vlek, maar konden de exacte letters of cijfers niet aanwijzen.

2. De Metafoor: De Zoektocht in de Oerwoud

Stel je voor dat je een AI hebt getraind om olifanten te vinden in een Afrikaans savanne-landschap.

In de savanne (natuurlijke foto's): Olifanten zijn groot. Ze nemen 20% tot 30% van het beeld in. Als je zegt: "Zoek naar iets dat groter is dan 50% van het beeld", vind je ze makkelijk.
In het document (de nieuwe test): Nu moet diezelfde AI een enkele letter vinden in een heel groot document. Die vervalste letter neemt misschien maar 0,5% van het hele papier in beslag.

De AI kijkt naar het document en denkt: "Ik zie wel iets verdachts, maar het is zo klein dat ik het niet durf aan te wijzen. Ik laat het maar links liggen."
De AI heeft de oog (het zien van het verschil), maar mist de hand (het kunnen aanwijzen van het kleine detail).

3. De "Kalibratie" (Het Instellen van de Weegschaal)

De paper noemt dit een kalibratiefout.
Stel je voor dat je een weegschaal hebt die perfect werkt voor zware stenen (olifanten). Je zet er een veertje (de vervalste letter) op. De weegschaal zegt: "Nee, dit is niet zwaar genoeg om te meten."
De weegschaal is niet kapot; hij is gewoon niet afgesteld voor lichte voorwerpen.

De AI's waren goed in het "rangen": Ze wisten wel dat de vervalste pixel zwaarder was dan de normale pixel.
Maar de drempel was verkeerd: De AI's dachten dat ze pas iets moesten melden als ze 50% zeker waren. In de wereld van documenten moet je echter al bij 1% of 2% zekerheid alarm slaan, omdat de vervalsingen zo klein zijn.

4. De Oplossing: Een Simpele "Tik"

Het goede nieuws is dat de AI's niet "dom" zijn. Ze hebben gewoon een kleine aanpassing nodig.
De onderzoekers deden een experiment: ze gaven de AI's slechts 10 voorbeelden van vervalste documenten om de "weegschaal" even bij te stellen.

Resultaat: De prestaties sprongen direct omhoog! Ze haalden tot wel 55% van hun maximale potentieel.
Conclusie: Je hoeft de AI niet opnieuw te trainen (wat duur en moeilijk is). Je hoeft alleen maar de "knop" (de drempelwaarde) een beetje anders te zetten.

5. Waarom is dit belangrijk?

Geen "Klaar-om-gebruik" Software: Op dit moment werkt er geen enkele AI die je direct kunt kopen en gebruiken om valse documenten te vinden zonder eerst veel tijd te steken in het aanpassen. Het is nog een onopgelost probleem.
De Nieuwe Dreiging: Alle documenten in deze test zijn gemaakt met oude methoden (zoals Photoshop of kopiëren). De echte toekomstige dreiging komt van Generatieve AI (zoals DALL-E of ChatGPT voor tekst). Die kunnen documenten vervalsen die er 100% echt uitzien. De onderzoekers waarschuwen: onze huidige detectives zijn daar nog helemaal niet op voorbereid.

Samenvattend in één zin:

De AI's hebben de ogen om vervalsingen te zien, maar ze kijken door een verkeerde bril die hen verhindert om de kleine details op documenten te vinden; gelukkig kunnen we die bril met een simpele aanpassing weer scherpstellen, maar tot die tijd is het vinden van valse documenten nog een heel moeilijke klus.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "DOCFORGE-BENCH: A Comprehensive Benchmark for Document Forgery Detection and Analysis" in het Nederlands.

Probleemstelling

Documentvervalsing (zoals het wijzigen van bedragen op bonnen, namen op identiteitsbewijzen of tekst in contracten) vormt een kritieke bedreiging, maar bestaande detectiemethoden falen hierin op een specifieke en diagnostische manier. Hoewel modellen getraind op natuurlijke afbeeldingen (foto's van landschappen, mensen, objecten) goed presteren in het onderscheiden van vervalsingen (hoge AUC), falen ze volledig bij het lokaliseren van de vervalsing met een vaste drempelwaarde (bijna nul Pixel-F1).

De kern van het probleem is een calibratiefout veroorzaakt door een extreme onbalans in de klassen:

Natuurlijke afbeeldingen: Vervalsingen bedekken vaak 10–30% van de pixels.
Documenten: Vervalsingen zijn vaak beperkt tot enkele tekens of velden, wat resulteert in slechts 0,27% tot 4,17% vervalste pixels.

De standaard drempelwaarde ( $\tau=0,5$ ), die werkt voor natuurlijke afbeeldingen, is catastrofaal verkeerd gekalibreerd voor documenten. Modellen scoren vervalste pixels hoger dan echte, maar de absolute scores zijn te laag om boven de 0,5-drempel te komen, waardoor ze als "echt" worden geclassificeerd.

Methodologie: DOCFORGE-BENCH

De auteurs introduceren DOCFORGE-BENCH, het eerste geünificeerde zero-shot benchmark voor documentvervalsing. Het belangrijkste onderscheidende kenmerk is dat alle methoden worden geëvalueerd met hun gepubliceerde vooraf getrainde gewichten, zonder enige vorm van fine-tuning of domeinadaptatie. Dit simuleert een realistische scenario waarin een gebruiker een kant-en-klaar model inzet zonder toegang tot gelabelde trainingsdata voor het specifieke documenttype.

Benchmarks en Datasets:
Het benchmark omvat 8 datasets die verschillende vervalsingstypen dekken:

Tekstvervalsing: DocTamper, T-SROIE, RealTextManipulation, Tampered-IC13, FSTS-1.5k.
Kassabonvervalsing: ReceiptForgery (prijs/quantiteit manipulatie).
Identiteitsdocumenten: FantasyID (gezichtswisseling en tekstvervanging).

Geëvalueerde Methoden:
Er zijn 14 methoden getest, verdeeld in twee categorieën:

Algemene beeldforensiek: (bijv. TruFor, ManTraNet, MVSS-Net, CAT-Net) die oorspronkelijk zijn getraind op natuurlijke foto's.
Document-specifieke methoden: (bijv. DocTamper-model, DTD, FFDN, CAFTB-Net, ASCFormer, ADCD-Net) die specifiek zijn getraind op documenten.

Evaluatiemetrics:
Om het calibratieprobleem bloot te leggen, gebruiken de auteurs drie metrics:

Pixel-F1 (bij $\tau=0,5$ ): De praktische prestatie zonder kalibratie.
Pixel-AUC: Meet of het model vervalste pixels correct boven echte pixels rangschikt (onafhankelijk van kalibratie).
Oracle-F1: De theoretisch maximale F1 die haalbaar is per afbeelding door de optimale drempel per afbeelding te kiezen. Dit dient als een bovengrens om de "kalibratiekloof" te kwantificeren.

Belangrijkste Bijdragen

Eerste Zero-Shot Benchmark: DOCFORGE-BENCH isoleert de echte "out-of-the-box" generalisatiecapaciteit, in tegenstelling tot benchmarks zoals ForensicHub die fine-tuning toestaan en zo de prestaties kunstmatig opblazen.
Diagnose van de Calibratiekloof: Het paper bewijst empirisch dat de slechte prestaties niet liggen aan een gebrek aan discriminatievermogen (de modellen "zien" de vervalsing wel), maar aan een verschuiving in de scoreverdeling. De vervalsingen zijn te klein (lage base rate) voor de standaarddrempel.
Kwantificering van de Base-Rate Mismatch: De auteurs tonen aan dat de onbalans (0,27–4,17% vs. 10–30%) de oorzaak is van de falende drempelwaarde.
Bewijs van Kalibratieherstel: Een gecontroleerd experiment toont aan dat het aanpassen van de drempelwaarde op slechts 10 afbeeldingen uit het doel-domein 39–55% van de Oracle-F1-kloof kan herstellen, zonder het model opnieuw te hoeven trainen.

Resultaten

Algemene Prestaties: Geen enkele geëvalueerde methode werkt betrouwbaar "out-of-the-box" op diverse documenttypes. Geen enkele methode bereikte een Pixel-F1 $\ge 0,3$ op ten minste zes van de acht datasets.
De AUC-F1 Kloof: Alle methoden (zowel algemeen als document-specifiek) vertonen een hoge Pixel-AUC (vaak $\ge 0,76$ , soms >0,90) maar een Pixel-F1 dicht bij nul. Dit bevestigt dat het probleem kalibratie is, niet representatie.
Domein-specifiek vs. Algemeen:
- Modellen die specifiek op documenten zijn getraind (zoals het DocTamper-model) presteren uitstekend op hun eigen trainingsdomein (F1 = 0,91), maar storten volledig in op andere documenttypes (bijv. F1 = 0,045 op T-SROIE). Dit wijst op ernstige overfitting op specifieke rendering-artefacten.
- Algemene methoden zoals TruFor en CAT-Net presteren soms beter op cross-domein taken dan de gespecialiseerde modellen, hoewel ook zij kampen met de calibratiekloof.
- CAFTB-Net en TruFor delen de beste gemiddelde prestaties over alle datasets, wat suggereert dat domeinspecialisatie niet automatisch leidt tot superieure zero-shot generalisatie.
Kalibratie-experiment: Door de drempelwaarde aan te passen op een kleine steekproef (N=10), kon de prestatie van methoden zoals PSCC-Net en FFDN aanzienlijk worden verbeterd (bijv. van F1=0,04 naar F1=0,10), wat aantoont dat het probleem oplosbaar is zonder retraining.

Betekenis en Toekomstperspectief

Dit paper legt een fundamenteel probleem bloot in het veld van documentforensiek: documentvervalsing detectie is nog steeds een onopgelost probleem voor praktische, zero-shot implementaties. De huidige staat van de kunst faalt omdat modellen zijn getraind op data met een veel hogere verhouding van vervalste pixels dan in de realiteit voorkomt.

De belangrijkste conclusie is dat drempeladaptatie (calibratie) de ontbrekende schakel is voor praktische inzet, niet het opnieuw trainen van modellen.

Toekomstige uitdagingen:

Generatieve AI: Alle huidige datasets dateren van vóór de era van generatieve AI (Diffusion-modellen, LLM's). Vervalsingen gegenereerd door tools zoals Stable Diffusion of DALL-E zullen fundamenteel andere sporen achterlaten. De auteurs voorspellen dat huidige methoden hier ook volledig zullen falen (near-zero F1) en roepen op tot nieuwe benchmarks voor deze nieuwe aanvalsvlakken.
Kalibratie-bewuste architecturen: Er is behoefte aan modellen die end-to-end kalibratie kunnen uitvoeren of die onzekerheidsschatten om de drempelwaarde dynamisch aan te passen.

Samenvattend biedt DOCFORGE-BENCH een noodzakelijke realiteitscheck voor het veld en biedt het een open-source toolkit om de volgende generatie van robuuste, kalibratie-bewuste documentvervalsingsdetectoren te ontwikkelen.

DOCFORGE-BENCH: A Comprehensive 0-shot Benchmark for Document Forgery Detection and Analysis

1. Het Probleem: De "Verkeerde Brillen"

2. De Metafoor: De Zoektocht in de Oerwoud

3. De "Kalibratie" (Het Instellen van de Weegschaal)

4. De Oplossing: Een Simpele "Tik"

5. Waarom is dit belangrijk?

Samenvattend in één zin:

Probleemstelling

Methodologie: DOCFORGE-BENCH

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities