Each language version is independently generated for its own context, not a direct translation.
Stel je voor dat Wikidata een gigantische, oneindige bibliotheek is. In deze bibliotheek staan miljarden kaarten (statements) die vertellen wie iets is of wat iets doet. Bijvoorbeeld: "George C. Scott was getrouwd met Colleen Dewhurst."
Maar wat als je meer details wilt? Wanneer waren ze getrouwd? Hoe lang duurde het? Waarom is het geëindigd?
In de digitale wereld van Wikidata zijn deze extra details kwalificatoren (qualifiers). Ze zijn als de kleine bijschriften op een museumplaatje. Zonder hen is de informatie vaag; met hen wordt het verhaal compleet.
Dit artikel van Gilles Falquet en Sahar Aljalbout is als een gids voor bibliothecarissen die proberen deze duizenden bijschriften te ordenen. Hier is wat ze hebben ontdekt, vertaald in alledaags taal:
1. Het probleem: De chaos van de "Bijschriften"
Tot nu toe was het voor mensen die Wikidata bijhouden (de vrijwilligers) een enorme puzzel: "Welk bijschrift moet ik nu gebruiken?"
Soms gebruiken ze de verkeerde, soms vergeten ze er een, en als je wilt zoeken in de bibliotheek, is het moeilijk om te filteren op specifieke details (bijvoorbeeld: "Toon alleen huwelijken die eindigden met een scheiding, niet met een overlijden").
De auteurs hebben gekeken naar de 300 meest gebruikte bijschriften en bedacht een systeem om ze in te delen, net zoals je kleding in kasten hangt: niet willekeurig, maar op basis van wat ze doen.
2. Hoe meten ze wat belangrijk is? (De "Populairiteit" vs. "Veelzijdigheid")
Ze wilden niet alleen kijken naar welke bijschriften het vaakst voorkomen. Stel, een bijschrift wordt 1 miljoen keer gebruikt, maar alleen voor één heel specifiek ding (zoals "sterrenhelderheid"). Dat is niet heel nuttig voor de rest van de bibliotheek.
Ze gebruikten een slimme formule (een soort "diversiteitsmeter") om te kijken:
- Hoe vaak wordt het gebruikt?
- Hoeveel verschillende soorten dingen helpt het te beschrijven?
Een goed bijschrift is als een zwitserse zakmes: het wordt vaak gebruikt én het werkt voor veel verschillende situaties. Een slecht bijschrift is als een sleutel die alleen maar één heel oud slot opent: het wordt misschien vaak gebruikt, maar het is niet flexibel.
3. De Grote Indeling (De Taxonomie)
De auteurs hebben de bijschriften ingedeeld in vier grote "schappen" in hun kast. Hier zijn de analogieën:
A. De Context-schappen (Waar en Wanneer?)
Dit zijn de bijschriften die zeggen: "Dit verhaal geldt alleen onder deze omstandigheden."
- Tijd: "Getrouwd van 1960 tot 1965." (Zonder dit zou het lijken alsof ze nog steeds getrouwd zijn).
- Ruimte: "Dit is de officiële website, maar alleen voor Duitsland."
- Voor wie: "Deze regel geldt voor de hele stad, maar niet voor het dorpje ernaast."
- Analogie: Dit is als een kalender en een kaart die je bij een uitnodiging plakt.
B. De Wetenschaps-schappen (Hoe zeker zijn we?)
Soms weten we het niet 100% zeker. Deze bijschriften zeggen: "We denken dit, maar het is misschien niet helemaal waar."
- Onzekerheid: "Geboren rond 420 v.Chr." (Het is geen exacte datum).
- Hypothesen: "De schrijver is waarschijnlijk Constantijn."
- Analogie: Dit zijn de waarschuwingsborden of de kleine lettertjes die zeggen: "Dit is een schatting, geen feit."
C. De Bouw-schappen (Hoe is het opgebouwd?)
Soms is een antwoord geen enkel woord, maar een samengesteld geheel. Deze bijschriften helpen om de losse onderdelen bij elkaar te houden.
- Structuur: Als je de "startpositie van een gen" opschrijft, heb je een getal én een chromosoom nodig. Het bijschrift "chromosoom" zorgt dat het getal niet verloren gaat.
- Lijsten: "Deze lijst bevat 39 items."
- Analogie: Dit is als de onderdelen van een LEGO-set. Zonder de instructie (het bijschrift) weet je niet welk blokje bij welk blokje hoort.
D. De Extra Info-schappen (De leukste details)
Dit zijn de bijschriften die het verhaal rijker maken, maar de kern niet veranderen.
- Voor wie: "In deze film speelt hij de rol van de slechterik."
- Oorzaak: "Het gebouw is afgebrand door blikseminslag."
- Bron: "Deze informatie komt uit een krant uit 1920."
- Analogie: Dit is de verhaallijn of de achtergrondmuziek die het verhaal levendig maakt.
4. Waarom is dit nuttig?
Deze indeling is niet alleen voor de boekenkast; het helpt de hele bibliotheek beter te werken:
- Voor de schrijvers: Als je een nieuwe kaart maakt, kun je nu sneller kiezen welk bijschrift je nodig hebt. Je denkt: "Ah, ik wil een tijdsduur aangeven, dus ik ga naar het 'Tijd'-schap."
- Voor de zoekers: Als je zoekt, kun je nu slimme vragen stellen. "Toon me alle films die eindigden met een scheiding" in plaats van te zoeken naar een specifieke code.
- Voor de robots: Computers kunnen nu logischer redeneren. Ze begrijpen dat "begin 1960" en "eind 1965" samen een tijdvak vormen, en dat "scheiding" een reden is voor het einde.
Conclusie
Kortom, deze auteurs hebben de chaos van de Wikidata-bijschriften omgezet in een logisch, overzichtelijk systeem. Ze hebben laten zien dat deze kleine toevoegingen niet zomaar willekeurige notities zijn, maar essentiële stukjes van een groter plaatje dat tijd, ruimte, zekerheid en structuur samenbrengt.
Door deze "gids" te hebben, wordt Wikidata niet alleen een grotere database, maar een slimmere, begrijpelijkere wereld waar zowel mensen als computers makkelijker de waarheid kunnen vinden.