Multilingual AI-Driven Password Strength Estimation with Similarity-Based Detection

Dit onderzoek toont aan dat het integreren van een niet-Engels (Indiaas) dataset en door ChatGPT gegenereerde data, gecombineerd met een Jaro-similariteitsmechanisme, leidt tot een effectievere en taalbewuste wachtwoordsterktemeter die de noodzaak van traditionele modellen zoals PassGAN overbodig maakt.

Nikitha M. Palaniappan, Ying He

Gepubliceerd Thu, 12 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Het Krachtmetertje voor Wachtwoorden: Een Verhaal over AI, Taal en Simpelheid

Stel je voor dat je wachtwoord een slot is op je digitale huis. De meeste mensen gebruiken slechte sloten: ze kiezen voor "123456", hun geboortedatum of hun huisdier. Hackers zijn als dieven die een enorme lijst met sleutels hebben gevonden (de "gelekte wachtwoorden") en proberen die één voor één in je slot te steken om te zien of hij past.

Deze paper is een onderzoek van twee studenten van de Queen Mary University of London. Ze wilden een beter slotcontrole-apparaat bouwen (een "Password Strength Meter") dat gebruikers vertelt of hun wachtwoord echt veilig is. Maar ze deden het op een heel slimme, nieuwe manier.

Hier is hoe het werkt, vertaald naar alledaags taal:

1. De Oude Manier: De Zware Machine (PassGAN)

Vroeger gebruikten experts zware, ingewikkelde computersystemen (zoals PassGAN) om wachtwoorden te raden.

  • De Analogie: Denk aan PassGAN als een enorme, dure fabrieksmachine die miljoenen keer per seconde probeert een sleutel te smeden. Het werkt goed, maar het is duur, traag en vereist dat je toegang hebt tot enorme lijsten met gestolen wachtwoorden (wat ethisch lastig is).

2. De Nieuwe Manier: De Slimme Chatbot (ChatGPT)

De onderzoekers vroegen zich af: "Hebben we die zware fabrieksmachine wel nodig? Kunnen we niet gewoon een slimme chatbot (ChatGPT) vragen om wachtwoorden te bedenken?"

  • De Analogie: In plaats van een fabriek, gebruik je een creatieve schrijver. Je zegt tegen de schrijver: "Bedenk 6.000 wachtwoorden die lijken op wat echte mensen kiezen, maar dan met Indiase namen, gerechten en Engelse woorden."
  • Het Resultaat: De schrijver (ChatGPT) deed dit in een flits. De wachtwoorden die hij bedacht, waren net zo realistisch als die van de dure fabriek, maar het kostte veel minder tijd en moeite.

3. De Taal-mix: Een Biculturele Sleutel

Een groot deel van het onderzoek ging over talen. De meeste wachtwoord-systemen zijn alleen getraind op Engels. Maar mensen in India (en overal ter wereld) gebruiken vaak een mix van hun moedertaal en Engels in hun wachtwoorden.

  • De Analogie: Stel je voor dat je een slot hebt dat alleen op Engelse sleutels reageert. Als iemand een sleutel maakt met een Hindi-woord erin, past hij niet. De onderzoekers lieten de AI echter "bicultureel" denken. Ze leerden de AI woorden als "Dosa" (een Indiase pannenkoek) en "Raja" (koning) te mengen met Engelse woorden.
  • Het Wonder: Toen ze dit deden, bleek dat de AI wachtwoorden kon raden die 99,97% perfect overeenkwamen met echte, gelekte Indiase wachtwoorden. Het was alsof de AI plotseling de "geheime taal" van de dieven had geleerd.

4. De "Niet-Perfecte" Match: De Jaro-Regel

In het verleden keken computers alleen of een wachtwoord exact hetzelfde was als een gelekt wachtwoord.

  • Het Probleem: Hackers zijn slim. Als jouw wachtwoord "Raja123" is, proberen ze ook "Raja124" of "Rajaa123". Als de computer alleen op exacte matches let, ziet hij deze pogingen niet als gevaarlijk.
  • De Oplossing: De onderzoekers gebruikten een meetlat genaamd de Jaro-similarity.
  • De Analogie: Stel je voor dat je twee woorden vergelijkt: "Thorkel" en "Thorgier". Ze zijn niet hetzelfde, maar ze lijken erg op elkaar. De Jaro-maatregel zegt: "Hey, deze twee lijken voor 78% op elkaar, dat is gevaarlijk!"
  • De Regels: Ze stelden een drempelwaarde in van 0,5. Als twee wachtwoorden voor meer dan 50% op elkaar lijken, telt het als een "match". Dit geeft een veel realistischer beeld van hoe hackers werken.

Wat is de Grootste Leerkracht?

De paper leert ons drie belangrijke dingen:

  1. Je hoeft geen supercomputer te zijn: Je kunt ChatGPT gebruiken in plaats van complexe, dure AI-modellen om wachtwoorden te testen. Het is sneller, makkelijker en ethisch veiliger (geen gestolen databases nodig).
  2. Meertaligheid is kracht: Door verschillende talen te mengen (Engels + Hindi), wordt het wachtwoord-systeem veel slimmer en kan het betere wachtwoorden voorspellen.
  3. Lijken is gevaarlijk: Het is niet nodig dat een wachtwoord exact hetzelfde is om gevaarlijk te zijn. Als het er netjes op lijkt, is het al een risico.

Kortom:
De onderzoekers hebben bewezen dat je met een slimme chatbot en een beetje creativiteit (en een paar Indiase woorden) een beter wachtwoord-systeem kunt bouwen dan met de oude, zware methoden. Het is alsof je van een zware, stoomaangedreven sleutelfabriek overstapt op een slimme, snelle schrijver die precies weet wat de dieven in gedachten hebben.