Hijacking Text Heritage: Hiding the Human Signature through Homoglyphic Substitution

Dit artikel onderzoekt hoe het vervangen van tekens door visueel gelijkende homoglyfen (homoglyph substitution) de prestaties van stilometrische systemen kan ondermijnen en zo de identificatie van auteurs via hun schrijfstijl kan voorkomen.

Oorspronkelijke auteurs: Robert Dilworth

Gepubliceerd 2026-04-14
📖 4 min leestijd☕ Koffiepauze-leesvoer

Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je schrijft een briefje op een stuk papier. Iemand anders kan dat papier lezen en zeggen: "Ah, dit is geschreven door Jan, want hij gebruikt altijd die rare zinnen en die specifieke woorden." Dat is wat stijlanalyse (of stylometry) doet met tekst op internet. Het is alsof je een digitaal vingerafdruk achterlaat, zelfs als je je naam niet noemt.

Deze tekst, geschreven door Robert Dilworth, gaat over een slimme manier om die digitale vingerafdruk te verbergen. Het is een soort "geheime taal" die computers verwarren, maar die voor mensen er gewoon uitziet als normaal tekst.

Hier is de uitleg, vertaald naar alledaagse taal met een paar creatieve vergelijkingen:

1. Het Probleem: Je digitale spoor

Stel je voor dat je een paspoort verliest. Dat is erg, want je naam en adres zijn dan weg. Maar wat als je gewoon een onschuldig berichtje post op sociale media, zoals "Ik vind het weer mooi vandaag"?
Volgens de auteur is dat bijna net zo gevaarlijk. Een slim computerprogramma kan kijken naar hoe je schrijft (je zinsbouw, je favoriete woorden, je leestekens) en zeggen: "Dit is bijna zeker geschreven door iemand uit Nederland, tussen de 20 en 30 jaar oud." Je kunt je identiteit onthullen zonder dat je ooit je naam noemt.

2. De Oplossing: De "Tweeling"-Truc

De auteur bedacht een manier om die vingerafdruk te vernietigen. Hij noemt dit Homoglyph Substitutie.

De vergelijking:
Stel je voor dat je een woord schrijft: "Huis".
In het alfabet dat computers gebruiken, is de letter 'h' een specifiek symbool. Maar er bestaat een andere letter, die er exact hetzelfde uitziet, maar die in het computergeheugen iets anders is. Het is alsof je een identieke tweeling hebt die er precies hetzelfde uitziet, maar een ander paspoort heeft.

De auteur zegt: "Laten we die 'h' vervangen door die 'tweeling'."

  • Voor een mens leest het woord nog steeds als "Huis".
  • Voor de computer is het echter een heel ander woord, omdat de code anders is.

3. Hoe werkt het in de praktijk?

De auteur heeft een programmaatje gemaakt (hij noemt het TraceTarnish, wat zoiets betekent als "Sporen vervuilen"). Dit programmaatje doet het volgende:

  • Het neemt een tekst.
  • Het vervangt ongeveer 37,5% van de letters door die "tweelingen" (de visueel identieke maar computertechnisch andere letters).
  • Het voegt soms ook onzichtbare karakters toe (zoals een luchtbelletje in een glas water dat je niet ziet, maar dat wel de structuur verandert).

Het resultaat:
Als je de tekst leest, zie je geen verschil. Het ziet er perfect uit. Maar als een computer probeert te analyseren wie de schrijver is, raakt hij in de war. Het is alsof je iemand probeert te herkennen aan hun handtekening, maar ze hebben hun handtekening geschreven met een inkt die er precies hetzelfde uitziet, maar chemisch anders is. De computer kan de patronen niet meer vinden.

4. Waarom doen ze dit? (De "Giftige" Reden)

De auteur noemt dit "vergiftigen" van de data. Waarom zou je dat willen?

  • Privacy: Om te voorkomen dat bedrijven of overheden je kunnen volgen op basis van hoe je schrijft.
  • Tegen "Pre-crime": De tekst waarschuwt voor een toekomst waarin AI je gedachten probeert te voorspellen (zoals in 1984 van George Orwell). Als je tekst "vergiftigd" is met deze truc, kan de AI je niet meer goed analyseren en kan hij je niet voorspellen wat je gaat doen of denken.

5. De Grootte van de Truc

De studie toont aan dat je niet alles hoeft te veranderen. Als je ongeveer 38% van de woorden een kleine "tweeling-truc" geeft, is de computer al zo verward dat hij je niet meer kan herkennen. Het is alsof je een schilderij een beetje besmeurt met een onzichtbare lak; het schilderij ziet er nog hetzelfde uit, maar de analyse van de verf is kapot.

Samenvatting in één zin

Deze paper laat zien dat we onze digitale vingerafdruk kunnen verbergen door letters te vervangen door hun "tweelingen" (die er hetzelfde uitzien maar anders zijn voor computers), waardoor we onze privacy kunnen beschermen tegen slimme AI-systemen die proberen te raden wie we zijn.

Het is een vorm van digitale zelfverdediging: Als ze je data willen, geef ze die, maar zorg dat het "vergiftigd" is zodat ze er niets nuttigs mee kunnen doen.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →