Auteurs originaux : Rez Samantha Z. Floresca, Edric Castel C. Hao, Hannah Grachiella Buñales, Chelsea Dominique E. Temprosa, Georgianna Z. Reyes, Kervin Gabriel L. Chua

Publié 2026-05-26✓ Author reviewed ⓘ

📖 5 min de lecture🧠 Analyse approfondie

CC BY 4.0

Auteurs originaux : Rez Samantha Z. Floresca, Edric Castel C. Hao, Hannah Grachiella Buñales, Chelsea Dominique E. Temprosa, Georgianna Z. Reyes, Kervin Gabriel L. Chua

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous essayez d'enseigner à un ordinateur à repérer les premiers signes de démence simplement en écoutant la façon dont les gens parlent. L'ordinateur doit reconnaître des « indices » spécifiques dans la parole, comme la répétition de mots, les blocages ou l'utilisation de phrases plus simples, qui surviennent souvent lorsque la mémoire de quelqu'un commence à s'estomper.

Le problème est que la plupart de ces « ordinateurs intelligents » (modèles d'IA) n'ont été entraînés qu'en anglais. Ils sont comme des détectives experts qui n'ont jamais résolu de crimes qu'à Londres. Si vous leur montrez soudainement une scène de crime à Manille, où les gens parlent un mélange de philippin et d'anglais (souvent appelé « Taglish »), le détective londonien se perd et échoue à résoudre l'affaire.

Ce document, intitulé « Forgotten Words » (Mots oubliés), est un bulletin de notes sur la façon dont ces détectives d'IA se comportent lorsque nous passons de l'anglais au philippin. Voici ce que les chercheurs ont découvert, expliqué simplement :

1. Le « Détective londonien » contre le « Détective manilais »

Les chercheurs ont créé un ensemble de tests spécial. Ils ont pris 2 000 transcriptions réelles de discours de patients atteints de démence et de personnes en bonne santé en anglais, et les ont traduites manuellement en philippin. Ils n'ont pas utilisé de traducteur automatique, car les robots ont tendance à « nettoyer » la parole désordonnée, alors que c'est précisément ce désordre (les pauses et les répétitions) qui constitue l'indice qu'ils recherchent.

Ils ont ensuite testé cinq types différents de modèles d'IA :

L'ancienne école : Un système simple basé sur les mathématiques (TF-IDF).
Le standard : Le modèle classique entraîné en anglais (BERT).
La nouvelle technologie : Un modèle modernisé uniquement en anglais (NeoBERT).
Le polyglotte : Un modèle entraîné sur 100 langues (XLM-RoBERTa).
L'expert local : Un modèle entraîné spécifiquement sur du texte philippin (RoBERTa-Tagalog).

2. La grande surprise : « Une langue, un cerveau »

La découverte la plus importante est que connaître la maladie en anglais ne vous aide pas à la connaître en philippin.

L'échec : Lorsqu'ils ont entraîné le modèle standard anglais sur des données anglaises et l'ont testé sur du philippin, ses performances se sont effondrées. Il est passé d'un détective précis à 95 % en anglais à un détective précis à 45 % en philippin. Il ne faisait essentiellement que deviner.
L'asymétrie : Fait intéressant, il était légèrement plus facile pour un modèle entraîné en philippin de comprendre l'anglais que l'inverse. Cela s'explique probablement par le fait que la conversation philippine inclut naturellement beaucoup de mots anglais (changement de code), de sorte que le modèle entraîné en philippin a accidentellement appris certains modèles anglais. Mais un modèle purement anglais ne savait pas quoi faire avec la grammaire philippine.
Le piège de la « nouvelle technologie » : Ils ont testé NeoBERT, une version sophistiquée et modernisée du modèle anglais. Vous pourriez penser : « Plus récent et plus rapide signifie mieux, n'est-ce pas ? » Pas ici. NeoBERT était en fait pire pour changer de langue. Il est devenu si spécialisé en anglais qu'il est devenu rigide et incapable de s'adapter au philippin du tout. C'est comme un chef qui est si parfait dans la cuisine française qu'il ne peut même pas préparer un simple sandwich si vous lui demandez de passer aux ingrédients italiens.

3. La solution : La « classe bilingue »

Alors, comment réparer un détective qui ne parle qu'une seule langue ? Vous n'achetez pas un nouveau détective ; vous enseignez à l'actuel à parler les deux.

Les chercheurs ont essayé le réglage fin bilingue. C'est comme mettre l'IA dans une salle de classe où elle doit apprendre auprès d'un mélange d'élèves anglophones et philippins en même temps.

Le résultat : Ce fut une solution miracle. Lorsque les modèles ont été entraînés sur les deux langues ensemble, l'écart de performance a disparu. Que le modèle soit du type « ancienne école », du type « nouvelle technologie » NeoBERT ou de l'« expert local », ils sont tous devenus soudainement d'excellents détectives dans les deux langues, obtenant environ 97 % de précision.
La leçon : Peu importait à quel point l'architecture du modèle était sophistiquée. Ce qui comptait, c'était quelles langues il avait été exposées pendant son entraînement. Si les données d'entraînement incluaient les deux langues, le modèle apprenait à reconnaître les modèles de la démence indépendamment de la langue. S'il ne voyait qu'une seule langue, il se perdait dans l'autre.

4. Pourquoi cela compte (selon le document)

Le document conclut que pour les contextes à faibles ressources (endroits où il n'y a pas beaucoup de données) et les endroits où les gens mélangent les langues (comme les Philippines), vous n'avez pas besoin d'un modèle d'IA plus grand ou plus complexe.

Vous devez simplement vous assurer que le modèle apprend à partir d'un mélange de langues. Le « secret » n'est pas un cerveau meilleur ; c'est une meilleure liste de vocabulaire qui inclut à la fois l'anglais et le philippin.

Analogie résumée

Imaginez la détection de la démence comme la reconnaissance d'une chanson spécifique.

Les modèles uniquement en anglais sont comme des personnes qui ne connaissent la chanson qu'en anglais. Si vous jouez la chanson en philippin, elles ne reconnaissent pas la mélodie.
NeoBERT est comme une personne qui connaît la chanson anglaise parfaitement et peut la chanter plus vite, mais qui ne reconnaît toujours pas la version philippine.
L'entraînement bilingue consiste à enseigner à la personne d'écouter la chanson dans les deux langues en même temps. Soudain, elle réalise : « Oh, c'est le même air ! » et elle peut la reconnaître quelle que soit la langue chantée.

Le document prouve que pour construire un système qui fonctionne pour tout le monde, nous devons enseigner à l'IA d'écouter tout le monde, et pas seulement les anglophones.

Résumé technique : Mots oubliés – Évaluation de NeoBERT pour la détection de la démence dans la parole conversationnelle tagalog et anglaise à ressources limitées

Énoncé du problème

La détection de la démence par la parole spontanée offre une approche évolutive pour le dépistage cognitif, pourtant les systèmes actuels de traitement automatique du langage (TAL) restent principalement centrés sur l'anglais. Cette limitation est critique aux Philippines, où la parole quotidienne implique fréquemment un code-switching tagalog-anglais (Taglish), et où aucun travail antérieur n'a abordé la détection de la démence basée sur le TAL dans ce contexte. Les benchmarks existants pour le TAL tagalog se concentrent sur le texte écrit (par exemple, actualités, réseaux sociaux) et ne traitent pas la parole naturaliste, le discours clinique ou les tâches de diagnostic cognitif. De plus, bien que les encodeurs basés sur des transformateurs dominent le TAL clinique, leur application à la détection de la démence a largement reposé sur des variantes architecturales qui ne diffèrent que par les données de préentraînement, laissant ouverte la question de savoir si la modernisation architecturale (par exemple, NeoBERT) améliore la robustesse dans des contextes cliniques bilingues à ressources limitées.

Méthodologie

Construction de l'ensemble de données

Pour isoler les effets linguistiques des effets de domaine, les auteurs ont construit un ensemble de données bilingue parallèle de 4 000 transcriptions conversationnelles dérivées de DementiaBank.

Source : 2 000 transcriptions en anglais (1 000 positives pour la démence, 1 000 témoins sains) issues de la tâche de description d'image « Vol de biscuits ».
Traduction en tagalog : L'ensemble anglais a été traduit manuellement en tagalog par des traducteurs humains. Crucialement, les traducteurs ont reçu l'instruction de préserver les marqueurs de niveau discursif du déclin cognitif (répétitions, hésitations, faux départs, dégradation syntaxique) plutôt que de normaliser la parole vers la fluidité. La traduction automatique a été évitée pour prévenir l'effacement des caractéristiques diagnostiques.
Prétraitement : Toutes les transcriptions ont subi une normalisation Unicode/espaces blancs et une mise en minuscules. Les disfluences ont été conservées car ce sont des corrélats établis du déficit cognitif. Aucun stemming ou lemmatisation n'a été appliqué pour éviter de dégrader les signaux diagnostiques. Les séquences ont été tronquées à 128 jetons.

Familles de modèles et bases de référence

Cinq familles de modèles ont été évaluées selon trois régimes d'entraînement : Anglais uniquement (EN), Tagalog uniquement (TL) et Bilingue (EN+TL).

TF-IDF + Régression logistique : Une base lexicale pour évaluer les statistiques de surface des jetons.
BERT-base-uncased : Préentraînement standard uniquement en anglais.
NeoBERT : Une architecture d'encodeur modernisée (utilisant des embeddings de position rotatifs, Pre-LayerNorm, SwiGLU) préentraînée exclusivement en anglais (RefinedWeb).
XLM-RoBERTa : Un modèle multilingue de 100 langues.
RoBERTa-Tagalog : Un modèle correspondant à la langue préentraîné sur un corpus tagalog à grande échelle (TLUnified).

Protocole expérimental

Entraînement : Les modèles ont été affinés en utilisant un pooling moyen sur les états cachés finaux (plutôt que les jetons [CLS]) et l'optimisation AdamW. Les hyperparamètres ont été sélectionnés par recherche sur grille pour éviter la divergence de perte sur les petits ensembles de données.
Évaluation : La performance a été mesurée à l'aide du Macro-F1 et de la Précision via une validation croisée stratifiée à 10 plis.
Paramètres :
- Intra-domaine : Entraînement et test sur la même langue.
- Transfert zéro-shot interlangue : Entraînement sur une langue, test sur l'autre.
- Bilingue : Entraînement sur le corpus combiné, test sur des plis mixtes de langue retenus.
Métrique : L'Écart de généralisation interlangue ( $\Delta F1$ ) a été défini comme la différence absolue entre les scores F1 intra-domaine et interlangue.

Résultats clés

1. Échec interlangue dans l'entraînement monolingue

Une forte performance intra-domaine ne s'est pas transférée entre les langues.

BERT entraîné en anglais a atteint un F1 intra-domaine de 0,952 en anglais mais est tombé à 0,455 en tagalog ( $\Delta = 0,497$ ).
BERT entraîné en tagalog a atteint 0,981 en tagalog mais est tombé à 0,705 en anglais ( $\Delta = 0,276$ ).
L'asymétrie suggère que l'anglais reste un a priori plus fort dans l'espace de représentation en raison de l'exposition au préentraînement, et que l'affinement sur le tagalog ne réécrit pas entièrement cette géométrie.

2. La modernisation architecturale n'assure pas la robustesse

NeoBERT, malgré ses avancées architecturales, n'a pas amélioré la robustesse interlangue.

NeoBERT entraîné en anglais a performé de manière comparable à BERT en intra-domaine (F1=0,952) mais s'est dégradé significativement en tagalog (F1=0,617) avec une variance élevée ( $\sigma=0,109$ ).
Cela indique que la modernisation architecturale seule crée des frontières de décision monolingues plus serrées qui améliorent la fidélité intra-domaine mais réduisent la tolérance à la variation linguistique.

3. Le rôle de la couverture du préentraînement

XLM-RoBERTa (Multilingue) a montré le plus petit écart de transfert de l'anglais vers le tagalog ( $\Delta=0,013$ ), suggérant un espace de représentation partagé. Cependant, le transfert du tagalog vers l'anglais était plus faible ( $\Delta=0,161$ ), probablement dû à la domination de l'anglais dans son corpus de préentraînement.
RoBERTa-Tagalog (Correspondant à la langue) a surprenamment atteint un transfert anglais-vers-tagalog quasi identique ( $\Delta=0,017$ ) à celui de XLM-RoBERTa. Les auteurs attribuent cela à l'emprunt lexical anglais étendu et au code-switching inhérents au tagalog conversationnel, permettant à un modèle préentraîné en tagalog de capturer les structures anglaises intégrées. Cependant, il a davantage peiné dans le sens inverse ( $\Delta=0,218$ ).

4. L'affinement bilingue élimine la dégradation

La découverte la plus significative est que l'affinement bilingue (entraînement sur les deux langues simultanément) a éliminé la dégradation interlangue pour tous les modèles transformateurs.

Tous les modèles ont convergé vers un Macro-F1 de 0,969–0,973 sur l'ensemble de test combiné.
L'écart interlangue s'est réduit à 0,027–0,037 pour toutes les architectures, y compris NeoBERT.
Cela suggère que le principal goulot d'étranglement n'est pas la capacité architecturale mais l'alignement représentationnel. La supervision bilingue force le modèle à apprendre des régions compatibles dans l'espace d'incorporation pour les deux langues.

5. Sensibilité clinique

Sous un changement de langue, la précision agrégée peut masquer les modes d'échec.

BERT entraîné en anglais a maintenu un rappel élevé de la démence sur le tagalog (0,931) mais s'est effondré sur la classe Saine (F1=0,216), prédisant effectivement la plupart des échantillons tagalog comme positifs pour la démence.
L'entraînement bilingue a résolu ces instabilités, tous les modèles transformateurs atteignant un rappel de démence >0,93 avec une faible variance.

Importance et affirmations

L'article prétend fournir la première évaluation systématique de la détection de la démence basée sur des transformateurs dans la parole tagalog et la première évaluation de NeoBERT dans un contexte de TAL clinique.

La conclusion centrale est que la performance du TAL clinique multilingue est principalement pilotée par la couverture linguistique durant l'entraînement plutôt que par l'échelle du modèle ou l'architecture.

La modernisation architecturale (par exemple, NeoBERT) seule ne produit pas de gains interlangues cohérents et peut augmenter la sensibilité au changement de langue.
La supervision bilingue est la stratégie la plus efficace pour atteindre une performance stable et cliniquement cohérente entre les langues, éliminant effectivement l'écart de généralisation interlangue.
L'étude souligne que pour des contextes à ressources limitées et à code-switching comme les Philippines, assurer une couverture linguistique adéquate durant l'entraînement de la tâche est plus critique que les modifications architecturales.

Limitations reconnues par les auteurs

Source des données : L'ensemble de données tagalog a été construit via une traduction manuelle de transcriptions anglaises, et non à partir de la parole de patients locaux collectée organiquement. Bien que les disfluences structurelles aient été préservées, le contenu sémantique reflète la source anglaise originale.
Modalité : L'étude se concentre exclusivement sur le texte, excluant les caractéristiques acoustiques (ton, durée des pauses) qui sont également des marqueurs diagnostiques.
Interprétabilité : Les mécanismes guidant les décisions des modèles dans des contextes multilingues restent opaques, nécessitant un travail futur sur l'interprétabilité pour la confiance clinique.

Forgotten Words: Benchmarking NeoBERT for Dementia Detection in Low-Resource Conversational Filipino and English Speech