Oorspronkelijke auteurs: Rez Samantha Z. Floresca, Edric Castel C. Hao, Hannah Grachiella Buñales, Chelsea Dominique E. Temprosa, Georgianna Z. Reyes, Kervin Gabriel L. Chua

Gepubliceerd 2026-05-26✓ Author reviewed ⓘ

📖 5 min leestijd🧠 Diepgaand

CC BY 4.0

Oorspronkelijke auteurs: Rez Samantha Z. Floresca, Edric Castel C. Hao, Hannah Grachiella Buñales, Chelsea Dominique E. Temprosa, Georgianna Z. Reyes, Kervin Gabriel L. Chua

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je probeert een computer te leren de vroege tekenen van dementie op te sporen, puur door te luisteren naar hoe mensen spreken. De computer moet specifieke "aanwijzingen" in de spraak herkennen, zoals het herhalen van woorden, vastlopen in de zinnen, of het gebruik van eenvoudigere zinsconstructies. Dit gebeurt vaak wanneer iemands geheugen begint te verslechteren.

Het probleem is dat de meeste van deze "slimme computers" (AI-modellen) uitsluitend zijn getraind op het Engels. Ze zijn als expert-detectives die alleen maar misdaden hebben opgelost in Londen. Als je ze plotseling een moordplek in Manilla toont, waar mensen een mix van Filipijns en Engels spreken (vaak "Taglish" genoemd), raakt de Londense detective in de war en faalt hij in het oplossen van de zaak.

Dit artikel, getiteld "Vergeten Woorden", is een rapportcijfer voor hoe goed deze AI-detectives presteren wanneer we de taal van Engels naar Filipijns wisselen. Hier is wat de onderzoekers hebben gevonden, eenvoudig uiteengezet:

1. De "Londense Detective" versus de "Manilla Detective"

De onderzoekers bouwden een speciale testset. Ze namen 2.000 echte transcripties van spraak van Engelse dementiepatiënten en gezonde mensen en vertaalden deze handmatig naar het Filipijns. Ze gebruikten geen robotvertaler, omdat robots de "rommelige" spraak vaak "opkuisen", terwijl die rommeligheid (de pauzes en herhalingen) juist de aanwijzing is waar ze naar zoeken.

Vervolgens testten ze vijf verschillende soorten AI-modellen:

De Oude School: Een eenvoudig op wiskunde gebaseerd systeem (TF-IDF).
De Standaard: Het klassieke, op Engels getrainde model (BERT).
De Nieuwe Tech: Een gemoderniseerd Engelstalig model (NeoBERT).
De Polyglot: Een model dat is getraind op 100 talen (XLM-RoBERTa).
De Lokale Expert: Een model dat specifiek is getraind op Filipijnse tekst (RoBERTa-Tagalog).

2. De Grote Verrassing: "Eén Taal, Eén Brein"

De belangrijkste bevinding is dat het kennen van de ziekte in het Engels je niet helpt om hem in het Filipijns te kennen.

Het Falen: Toen ze het standaard Engelstalige model trainden op Engelse data en testten op Filipijns, stortte de prestatie in. Het ging van een 95% nauwkeurige detective in het Engels naar een 45% nauwkeurige in het Filipijns. Het was in feite raden.
De Asymmetrie: Interessant genoeg was het voor een model dat op Filipijns was getraind iets makkelijker om Engels te begrijpen dan andersom. Dit komt waarschijnlijk omdat Filipijnse conversaties van nature veel Engelse woorden bevatten (code-switching), waardoor het op Filipijns getrainde model per ongeluk wat Engelse patronen heeft geleerd. Maar een puur Engelstalig model wist geen raad met Filipijnse grammatica.
De "Nieuwe Tech"-Valstrik: Ze testten NeoBERT, een chique, gemoderniseerde versie van het Engelstalige model. Je zou denken: "Nieuwer en sneller betekent beter, toch?" Niet hier. NeoBERT was eigenlijk slechter in het wisselen van talen. Het werd zo gespecialiseerd in het Engels dat het stijf werd en helemaal niet kon aanpassen aan het Filipijns. Het is als een chef-kok die zo perfect is in het maken van Franse gerechten dat hij niet eens een simpele sandwich kan maken als je hem vraagt over te stappen op Italiaanse ingrediënten.

3. De Oplossing: De "Tweetalige Klas"

Dus, hoe los je een detective op die maar één taal spreekt? Je koopt geen nieuwe detective; je leert de huidige detective om beide talen te spreken.

De onderzoekers probeerden Tweetalige Fine-Tuning. Dit is alsof je de AI in een klaslokaal zet waar het tegelijkertijd moet leren van een mix van Engelse en Filipijnse studenten.

Het Resultaat: Dit was een wondermiddel. Toen de modellen op beide talen samen werden getraind, verdween het prestatieverschil. Of het model nu het type "Oude School" was, de "Nieuwe Tech" NeoBERT, of de "Lokale Expert", ze werden allemaal plotseling uitstekende detectives in beide talen, met een score van ongeveer 97% nauwkeurigheid.
De Les: Het maakte niet uit hoe chique de architectuur van het model was. Wat er toe deed was aan welke talen het tijdens zijn training was blootgesteld. Als de trainingsdata beide talen omvatte, leerde het model de patronen van dementie te herkennen, ongeacht de taal. Als het maar één taal zag, raakte het in de andere taal verdwaald.

4. Waarom Dit Belangrijk Is (Volgens het Artikel)

Het artikel concludeert dat voor settings met weinig middelen (plekken waar niet veel data beschikbaar is) en plekken waar mensen talen mixen (zoals de Filipijnen), je geen groter of complexer AI-model nodig hebt.

Je moet er gewoon voor zorgen dat het model leert van een mix van talen. De "geheime saus" is geen beter brein; het is een betere woordenlijst die zowel Engels als Filipijns omvat.

Samenvattende Analogie

Stel je dementiedetectie voor als het herkennen van een specifiek liedje.

Enkel Engelstalige modellen zijn als mensen die het liedje alleen in het Engels kennen. Als je het liedje in het Filipijns afspeelt, herkennen ze de melodie niet.
NeoBERT is als een persoon die het Engelstalige liedje perfect kent en het sneller kan zingen, maar nog steeds de Filipijnse versie niet herkent.
Tweetalige Training is als het iemand leren om het liedje in beide talen tegelijkertijd te beluisteren. Plotseling beseffen ze: "Oh, het is dezelfde melodie!" en kunnen ze het herkennen, ongeacht in welke taal het wordt gezongen.

Het artikel bewijst dat we, om een systeem te bouwen dat voor iedereen werkt, de AI moeten leren naar iedereen te luisteren, niet alleen naar Engelstaligen.

Technische Samenvatting: Vergeten Woorden – Benchmarking van NeoBERT voor Dementiedetectie in Taalarme Gesproken Filipijns en Engels

Probleemstelling

Dementiedetectie via spontane spraak biedt een schaalbare aanpak voor cognitieve screening, maar huidige Natural Language Processing (NLP)-systemen blijven grotendeels Engels-gecentreerd. Deze beperking is kritiek in de Filipijnen, waar dagelijks spraakgebruik vaak Filipijns-Engelse code-switching (Taglish) omvat, en er nog geen eerder werk is uitgevoerd dat NLP-gebaseerde dementiedetectie in deze context adresseert. Bestaande benchmarks voor Filipijns NLP richten zich op geschreven tekst (bijv. nieuws, sociale media) en slagen er niet in om natuurlijk spraakgebruik, klinisch discours of cognitieve diagnostische taken te behandelen. Bovendien, hoewel transformer-gebaseerde encoders klinisch NLP domineren, heeft hun toepassing op dementiedetectie grotendeels vertrouwd op architecturale varianten die slechts verschillen in voortrainingsdata, waardoor de vraag open blijft of architecturale modernisering (bijv. NeoBERT) de robuustheid verbetert in taalarme, cross-linguale klinische settingen.

Methodologie

Datasetconstructie

Om taaleffecten te isoleren van domeineffecten, construeerden de auteurs een parallelle tweetalige dataset van 4.000 conversatietranscripten afgeleid van DementiaBank.

Bron: 2.000 Engelse transcripten (1.000 dementie-positief, 1.000 gezonde controles) uit de "Cookie Theft" taak voor het beschrijven van een afbeelding.
Filipijnse Vertaling: De Engelse set werd handmatig vertaald naar Filipijns door menselijke vertalers. Cruciaal was dat vertalers de instructie kregen om markers van cognitieve achteruitgang op discoursniveau (herhalingen, aarzelingen, valse starts, syntactische degradatie) te behouden in plaats van de spraak te normaliseren naar vlotheid. Machinevertaling werd vermeden om diagnostische kenmerken niet te wissen.
Preprocessing: Alle transcripten ondergingen Unicode/whitespace-normalisatie en omzetting naar kleine letters. Disfluency's werden behouden omdat ze vastgestelde correlaten zijn van cognitieve stoornissen. Er werd geen stemming of lemmatisering toegepast om diagnostische signalen niet te degraderen. Sequenties werden getruncateerd tot 128 tokens.

Modelfamilies en Baselines

Vijf modelfamilies werden geëvalueerd in drie trainingsregimes: Enkel Engels (EN), Enkel Filipijns (TL) en Tweetalig (EN+TL).

TF-IDF + Logistische Regressie: Een lexische baseline om oppervlakkige tokenstatistieken te beoordelen.
BERT-base-uncased: Standaard enkel Engels voortraining.
NeoBERT: Een gemoderniseerde encoder-architectuur (met Rotary Positional Embeddings, Pre-LayerNorm, SwiGLU) uitsluitend voorgetraind op Engels (RefinedWeb).
XLM-RoBERTa: Een meertalig model met 100 talen.
RoBERTa-Tagalog: Een taalgelijkend model voorgetraind op een grootschalig Filipijns corpus (TLUnified).

Experimenteel Protocol

Training: Modellen werden fijngefineerd met behulp van mean pooling over de laatste verborgen staten (in plaats van [CLS]-tokens) en AdamW-optimatie. Hyperparameters werden geselecteerd via grid search om verliesdivergentie op kleine datasets te voorkomen.
Evaluatie: Prestaties werden gemeten met Macro-F1 en Nauwkeurigheid via gestratificeerde 10-voudige cross-validatie.
Instellingen:
- In-domein: Trainen en testen op dezelfde taal.
- Zero-shot Cross-linguaal: Trainen op één taal, testen op de andere.
- Tweetalig: Trainen op het gecombineerde corpus, testen op vastgehouden gemengde-taal folds.
Meting: De Cross-linguale Generalisatiekloof ( $\Delta F1$ ) werd gedefinieerd als het absolute verschil tussen in-domein en cross-linguale F1-scores.

Belangrijkste Resultaten

1. Cross-linguale Falen bij Enkel-Talige Training

Sterke in-domeinprestaties vertaalden zich niet over talen heen.

Engels-getrainde BERT behaalde een in-domein F1 van 0,952 op Engels, maar daalde naar 0,455 op Filipijns ( $\Delta = 0,497$ ).
Filipijns-getrainde BERT behaalde 0,981 op Filipijns, maar daalde naar 0,705 op Engels ( $\Delta = 0,276$ ).
De asymmetrie suggereert dat Engels een sterkere prior blijft in de representatieruimte vanwege voortrainingsblootstelling, en dat fijnafstemming op Filipijns deze geometrie niet volledig overschrijft.

2. Architecturale Modernisering Garandeert Geen Robuustheid

NeoBERT, ondanks zijn architecturale vooruitgang, verbeterde de cross-linguale robuustheid niet.

Engels-getrainde NeoBERT presteerde vergelijkbaar met BERT in-domein (F1=0,952), maar degradeerde significant op Filipijns (F1=0,617) met hoge variantie ( $\sigma=0,109$ ).
Dit geeft aan dat architecturale modernisering alleen strakkere enkel-talige beslissingsgrenzen creëert die de in-domein-fideliteit verbeteren, maar de tolerantie voor taalkundige variatie verminderen.

3. De Rol van Voortrainingsdekking

XLM-RoBERTa (Meertalig) toonde de kleinste transferkloof van Engels naar Filipijns ( $\Delta=0,013$ ), wat wijst op een gedeelde representatieruimte. Echter, transfer van Filipijns naar Engels was zwakker ( $\Delta=0,161$ ), waarschijnlijk omdat Engels het voortrainingscorpus domineert.
RoBERTa-Tagalog (Taalgelijkend) behaalde verrassend bijna identieke Engels-naar-Filipijns transfer ( $\Delta=0,017$ ) als XLM-RoBERTa. De auteurs schrijven dit toe aan de uitgebreide Engelse lexicale ontlening en code-switching die inherent zijn aan conversatiefilipijns, waardoor een op Filipijns voorgetraind model ingebedde Engelse structuren kan vastleggen. Het had echter meer moeite in de omgekeerde richting ( $\Delta=0,218$ ).

4. Tweetalige Fijnafstemming Elimineert Degradatie

De meest significante bevinding is dat tweetalige fijnafstemming (trainen op beide talen gelijktijdig) cross-linguale degradatie bij alle transformer-modellen elimineerde.

Alle modellen convergeerden naar een Macro-F1 van 0,969–0,973 op de gecombineerde testset.
De cross-linguale kloof kromp tot 0,027–0,037 voor alle architecturen, inclusief NeoBERT.
Dit suggereert dat de primaire bottleneck niet architecturale capaciteit is, maar representatieve uitlijning. Tweetalige supervisie dwingt het model om compatibele gebieden in de inbeddingsruimte te leren voor beide talen.

5. Klinische Sensitiviteit

Onder taalschifting kan geaggregeerde nauwkeurigheid faalmodi verbergen.

Engels-getrainde BERT behield een hoge dementie-recall op Filipijns (0,931), maar stortte in op de Gezonde klasse (F1=0,216), waarbij effectief de meeste Filipijnse samples als dementie-positief werden voorspeld.
Tweetalige training loste deze instabiliteiten op, waarbij alle transformer-modellen een dementie-recall >0,93 behaalden met lage variantie.

Betekenis en Claims

Het artikel claimt de eerste systematische evaluatie te bieden van transformer-gebaseerde dementiedetectie in Filipijnse spraak en de eerste beoordeling van NeoBERT in een klinische NLP-setting.

De kernconclusie is dat meertalige klinische NLP-prestaties primair worden gedreven door taalkundige dekking tijdens training en niet door modelgrootte of architectuur.

Architecturale modernisering (bijv. NeoBERT) alleen levert geen consistente cross-linguale winsten op en kan de gevoeligheid voor taalschifting vergroten.
Tweetalige supervisie is de meest effectieve strategie om stabiele, klinisch consistente prestaties over talen heen te bereiken, waardoor de cross-linguale generalisatiekloof effectief wordt geëlimineerd.
De studie benadrukt dat voor taalarme, code-switchende settingen zoals de Filipijnen, het waarborgen van adequate taalkundige dekking tijdens taaktraining kritischer is dan architecturale modificaties.

Beperkingen Erkend door de Auteurs

Data Bron: De Filipijnse dataset werd geconstrueerd via handmatige vertaling van Engelse transcripten, niet uit organisch verzamelde lokale patiëntenspraak. Hoewel structurele disfluency's werden behouden, weerspiegelt de semantische inhoud de oorspronkelijke Engelse bron.
Modus: De studie richt zich uitsluitend op tekst en sluit akoestische kenmerken (toonhoogte, pauzeduur) uit die ook diagnostische markers zijn.
Interpreteerbaarheid: De mechanismen die modelbeslissingen in meertalige contexten drijven, blijven ondoorzichtig, wat toekomstig werk op het gebied van interpreteerbaarheid voor klinisch vertrouwen noodzakelijk maakt.

Forgotten Words: Benchmarking NeoBERT for Dementia Detection in Low-Resource Conversational Filipino and English Speech