Bridging National and International Legal Data: Two Projects Based on the Japanese Legal Standard XML Schema for Comparative Law Studies

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat de wetten van de wereld een enorme bibliotheek zijn, maar dan met een groot probleem: elke land heeft zijn eigen soort boeken, geschreven in een andere taal, met een heel andere indeling en zelfs verschillende soorten kaft.

Als je als onderzoeker wilt weten hoe Nederland omgaat met 'huurcontracten' en hoe dat vergeleken kan worden met Japan, Duitsland of Frankrijk, moet je eerst alle boeken van die landen in elkaar kunnen lezen. Dat is heel lastig. Een Japanse wet staat misschien in een boekje met 100 pagina's, terwijl de Duitse versie in een dikke atlas van 500 pagina's staat, en ze gebruiken totaal andere woorden voor hetzelfde idee.

Dit artikel van Makoto Nakamura vertelt over twee projecten die samen een super-reisgids bouwen voor deze wereldwijde wettenbibliotheek. Ze doen dit in twee stappen:

Stap 1: Het uniform maken van de boeken (Project 1)

Stel je voor dat de Japanse wetboeken zijn geschreven in een heel specifiek formaat (de "JLS"-standaard). De rest van de wereld gebruikt echter een ander formaat (de "Akoma Ntoso" of AKN-standaard), dat wordt gebruikt door veel landen in Europa en daarbuiten. Het is alsof de Japanse boeken in vierkante dozen zitten, terwijl de internationale bibliotheek alleen ronde dozen accepteert. Je kunt ze niet zomaar op hetzelfde plankje leggen.

Het eerste project is als een slimme machine die alle Japanse vierkante dozen in ronde dozen verandert, zonder de inhoud van de boeken aan te raken.

Wat doen ze? Ze bouwen een computerprogramma dat de Japanse wetten "vertaalt" naar een internationaal standaardformaat.
Het resultaat: De Japanse wetten passen nu perfect in dezelfde kast als de wetten van andere landen. Ze hebben dezelfde structuur, dezelfde nummers en dezelfde metadata. Nu kunnen computers de Japanse wetten eindelijk "lezen" en vergelijken met die van anderen, omdat ze allemaal in hetzelfde formaat zitten.

Stap 2: Het vinden van de "tweeling" in de boeken (Project 2)

Nu de boeken allemaal in hetzelfde formaat zitten, is het tijd om te kijken naar de inhoud. Maar hier komt de taalproblematiek weer om de hoek kijken. Zelfs als de structuur hetzelfde is, zeggen een Japanse en een Franse wet misschien iets anders, of gebruiken ze heel andere woorden voor hetzelfde concept.

Het tweede project is als het bouwen van een slimme, meertalige zoekmachine die niet alleen zoekt op woorden, maar op betekenis.

De slimme truc: Ze gebruiken een soort "AI-brein" (gebaseerd op technologie zoals BERT) dat is getraind om de gevoelswaarde van een zin te begrijpen, ongeacht de taal. Het is alsof je een vertaler hebt die niet alleen woorden omzet, maar ook begrijpt dat "een hond mag niet blaffen" in het Nederlands en "un chien ne doit pas aboyer" in het Frans precies hetzelfde idee uitdrukken, zelfs als de woorden anders zijn.
Hoe werkt het?
1. De computer leest elke wetartikel en maakt er een "digitale vingerafdruk" van (een vector).
2. Vervolgens zoekt hij in de database van andere landen naar vingerafdrukken die er heel veel op lijken.
3. Om zeker te zijn dat het geen toeval is, gebruikt hij een tweede, nog slimmere AI (een "Cross-Encoder") om de beste matches te controleren en te rangschikken.
4. Uiteindelijk krijg je een netwerkkaart (een soort web van lijntjes) die laat zien welke Japanse wetten het meest lijken op welke Koreaanse of Franse wetten.

Waarom is dit belangrijk?

Vroeger moest je een expert zijn die meerdere talen vloeiend sprak en jarenlang in de bibliotheek zat om te zoeken naar vergelijkbare wetten. Dat was traag, duur en afhankelijk van de mening van één persoon.

Met dit nieuwe systeem kunnen we:

Schaalbaar onderzoek doen: In plaats van één artikel te vergelijken, kan de computer duizenden artikelen in één keer scannen.
Patronen zien: Je kunt plotseling zien dat drie landen op een heel specifiek punt in hun wetgeving heel erg op elkaar lijken, of juist heel verschillend zijn.
Nieuwe inzichten: De computer kan misschien koppelingen vinden die een mens over het hoofd zou zien, omdat hij niet wordt beperkt door vooroordelen of taalbarrières.

Conclusie

Kortom, dit onderzoek bouwt de fundering voor een wereldwijde, digitale wettenbibliotheek.

Eerst zorgen ze dat alle boeken in dezelfde kast passen (structuur).
Dan bouwen ze een slimme gids die de inhoud van die boeken met elkaar vergelijkt, ongeacht de taal (betekenis).

Het is nog een prototype (een werkend model, maar niet nog niet perfect), maar het laat zien dat we in de toekomst wetten niet meer alleen met de hand hoeven te vergelijken, maar dat we een krachtige, datagedreven manier hebben om de wereldwijde rechtspraak te begrijpen. Het is alsof we van een handgeschreven kaart zijn gegaan naar een interactieve Google Maps voor de wetten van de wereld.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Traditioneel vergelijkend rechtsonderzoek kampt met aanzienlijke uitdagingen door linguïstische, culturele en structurele diversiteit tussen rechtsstelsels. De afhankelijkheid van experts voor het vertalen van juridische concepten en het handmatig vergelijken van wetsteksten beperkt de schaalbaarheid en reproduceerbaarheid.
Twee specifieke technische barrières worden geïdentificeerd:

Structurele Interoperabiliteit: Juridische data in Japan is gestructureerd volgens het Japanese Legal Standard (JLS) XML-schema, terwijl de internationale gemeenschap de facto de Akoma Ntoso (AKN) standaard (LegalDocML) gebruikt. Dit gebrek aan compatibiliteit verhindert dat Japanse wetten worden opgenomen in internationale, machine-leesbare databases.
Semantische Koppeling: Zelfs als data gestructureerd is, is het moeilijk om semantisch equivalente bepalingen tussen verschillende rechtsstelsels en talen automatisch te identificeren. Traditionele methoden (zoals TF-IDF) zijn ontoereikend vanwege verschillen in juridische terminologie en formulering.

Methodologie

De auteur presenteert een geïntegreerd raamwerk bestaande uit twee opeenvolgende projecten die een pijplijn vormen van structurele naar semantische interoperabiliteit.

Project 1: Schema-conversie en internationale connectiviteit

Doel: Het creëren van een conversiepijplijn van JLS (Japanse wetten) naar AKN (internationaal standaard).
Proces:
- Parsing: JLS XML-bestanden worden geparst om hiërarchische elementen (<Law>, <Article>, <Paragraph>) te extraheren.
- Mapping: Ongeveer 50 XSLT-regels worden gebruikt om JLS-elementen één-op-één te mappen naar AKN-equivalenten (bijv. <Law> $\rightarrow$ <act>).
- Metadata: Toewijzing van FRBR-identifiers (Work, Expression, Manifestation) en metadata over jurisdictie, taal en versiedatum.
- Validatie: De geconverteerde bestanden worden gevalideerd tegen het LegalDocML-AKN-schema om structurele integriteit te garanderen.

Project 2: Multilinguale semantische mapping en database

Doel: Het automatisch identificeren van corresponderende wetsbepalingen tussen verschillende landen met behulp van NLP.
Architectuur:
- Data: Wetgeving uit Japan, Zuid-Korea, Frankrijk en Duitsland in AKN-formaat.
- Embedding: Gebruik van het multilinguale embedding-model multilingual-e5-large (gebaseerd op RoBERTa) om elke wetsbepaling te vertalen naar een vector in een gedeelde semantische ruimte.
- Retrieval: Toepassing van FAISS (Facebook AI Similarity Search) voor efficiënte benadering van de dichtstbijzijnde buren (nearest-neighbor search) om kandidaat-correspondenties te vinden zonder exhaustieve paar-voor-paar vergelijking.
- Reranking: Een Cross-Encoder model wordt gebruikt om de gevonden kandidaat-paren opnieuw te scoren voor een nauwkeurigere beoordeling van de semantische overeenkomst.
- Visualisatie: De resultaten worden weergegeven als een bipartiete netwerkgrafiek die de relaties tussen bepalingen visualiseert.

Kernbijdragen

Technische Interoperabiliteit: De eerste volledige en gevalideerde conversiepijplijn van het Japanse JLS-schema naar het internationale Akoma Ntoso-schema. Dit maakt Japanse wetgeving direct compatibel met wereldwijde juridische data-infrastructuur.
Geïntegreerd Framework: Een uniek raamwerk dat structurele normalisatie (XML-conversie) combineert met cross-linguale semantische modellering (BERT/STS) in één doorlopende pijplijn.
Prototype Systeem: Een werkend prototype voor het extraheren van cross-nationale correspondenties dat gebruikmaakt van een multi-stap aanpak: Embedding $\rightarrow$ FAISS Retrieval $\rightarrow$ Cross-Encoder Reranking $\rightarrow$ Netwerkvisualisatie.
Methodologische Verschuiving: Een bijdrage aan het opkomende veld van computational comparative law, waarbij kwalitatieve expertanalyse wordt aangevuld met kwantitatieve, datagedreven methoden voor het analyseren van grote corpora.

Resultaten

Project 1: De conversiepijplijn is succesvol getest op tien willekeurig geselecteerde Japanse wetten. Alle bestanden slaagden voor validatie tegen het AKN-schema, wat bewijst dat de hiërarchische logica van JLS fundamenteel compatibel is met AKN.
Project 2 (Experimenten):
- Bij binnenlandse mapping (Japanse Elektriciteitswet vs. Gaswet) werd een F1-score van 0,768 behaald.
- Bij cross-jurisdictie mapping (Japanse Burgerlijke Wetboek vs. Duitse Burgerlijke Wetboek) was de F1-score lager (0,348), wat de complexiteit van taal- en conceptuele verschillen weerspiegelt.
Prototype Netwerk: Het systeem genereerde een netwerk van 2.000 knopen (776 Koreaans, 232 Japans, 992 Frans) en 3.545 randen (kandidaat-correspondenties). Het systeem is in staat om semantische nabijheid te visualiseren en structurele patronen over rechtsstelsels heen te onthullen, hoewel het momenteel nog als een verkenningsinstrument (prototype) fungeert en geen definitieve "gold-standard" validatie heeft ondergaan.

Betekenis en Toekomstperspectief

De studie markeert een belangrijke stap in de digitalisering van vergelijkend recht. Door wetgeving niet langer als geïsoleerde teksten te zien, maar als knooppunten in een multi-layered normatief netwerk, biedt dit onderzoek een infrastructuur voor schaalbaar, reproduceerbaar en datagedreven onderzoek.

Academische Impact: Het stelt onderzoekers in staat om structurele convergentie en conceptuele diffusie tussen rechtsstelsels te analyseren op een schaal die handmatige methoden niet mogelijk maken.
Praktische Toepassing: Het systeem kan dienen als hulpmiddel voor wetgevers en juristen om buitenlandse wetgeving te raadplegen en te vergelijken, wat de transparantie en internationale samenwerking bevordert.
Toekomst: De volgende stappen omvatten het uitbreiden van het corpus naar meer rechtsstelsels (vooral civielrechtelijke landen), het ontwikkelen van een interactieve gebruikersinterface, en het creëren van expert-geannoteerde "gold-standard" datasets om de nauwkeurigheid van de semantische matching systematisch te evalueren en te verbeteren.

Bridging National and International Legal Data: Two Projects Based on the Japanese Legal Standard XML Schema for Comparative Law Studies

Stap 1: Het uniform maken van de boeken (Project 1)

Stap 2: Het vinden van de "tweeling" in de boeken (Project 2)

Waarom is dit belangrijk?

Conclusie

Probleemstelling

Methodologie

Kernbijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

Self-Calibrating Language Models via Test-Time Discriminative Distillation

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

Generating High Quality Synthetic Data for Dutch Medical Conversations

GIANTS: Generative Insight Anticipation from Scientific Literature