A Comparative Study of Penalised, Bayesian, Spatial, and Tree-Based Models for Provincial Poverty in Indonesia: Small Samples and High Collinearity

Each language version is independently generated for its own context, not a direct translation.

🇮🇩 Le Grand Défi : Comprendre la Pauvreté en Indonésie avec peu de pièces de puzzle

Imaginez que vous êtes un détective chargé de résoudre le mystère de la pauvreté dans les 34 provinces de l'Indonésie. Vous avez une liste de suspects potentiels : le niveau d'éducation, l'espérance de vie, l'accès à l'eau, l'électricité, et les compétences numériques (l'informatique).

Mais vous avez un gros problème : vous avez très peu de pièces de puzzle (seulement 34 provinces) et vos suspects se ressemblent tous énormément (ceux qui ont de l'électricité ont aussi souvent de l'eau et de bonnes écoles). C'est ce qu'on appelle la "multicolinéarité".

Si vous utilisez les outils statistiques classiques (comme une balance simple), vous risquez de vous tromper complètement. La balance va dire : "Ah, l'électricité est la cause !" alors que c'est peut-être l'école. Ou pire, elle va vous donner des résultats qui changent à chaque fois que vous regardez les données.

🔍 L'Expérience : Qui est le meilleur détective ?

Les auteurs de l'article ont organisé un grand concours de détectives. Ils ont testé différentes méthodes pour voir laquelle trouvait la vérité sans se tromper, même avec si peu de données.

Voici les trois équipes qu'ils ont confrontées :

1. L'Équipe "Classique" (Régression OLS)

C'est le détective qui utilise la méthode traditionnelle.

Le problème : Comme les suspects se ressemblent trop, ce détective devient confus. Il change d'avis tout le temps. Parfois, il dit que l'école aide, parfois qu'elle nuit. C'est instable.

2. L'Équipe "Machine Learning" (Les Super-Intelligences)

C'est ici qu'on a utilisé des technologies très avancées comme les forêts aléatoires, XGBoost ou BART. Ce sont des détectives ultra-puissants capables de voir des motifs complexes et non linéaires.

Le résultat surprise : Dans ce petit jeu avec peu de données, ces super-détectives ont échoué lamentablement.
L'analogie : Imaginez un élève très brillant qui apprend par cœur tout son manuel d'histoire. Il connaît chaque date et chaque nom par cœur. Mais si vous lui posez une question sur un événement qu'il n'a pas lu, il invente une réponse fausse. C'est ce qu'on appelle le surapprentissage (overfitting). Avec seulement 34 provinces, ces modèles ont appris le "bruit" (les erreurs aléatoires) au lieu d'apprendre la vérité. Ils sont devenus trop compliqués pour la tâche.

3. L'Équipe "Régularisée" (Les Détectives Disciplinés)

C'est l'équipe gagnante. Ils utilisent des modèles linéaires simples, mais avec une règle stricte : "Restez simples et ne vous fiez qu'aux preuves solides".

La méthode : Ils utilisent des techniques comme le "Ridge", le "LASSO" ou l'"Elastic Net".
L'analogie : C'est comme un détective qui porte des lunettes de soleil pour ne pas être ébloui par les fausses pistes. Si deux suspects se ressemblent trop (comme l'eau et l'électricité), le détective décide de ne pas les compter tous les deux pour éviter la confusion. Il force le modèle à être prudent.
Le verdict : Ces modèles simples et disciplinés ont donné les prédictions les plus fiables et les plus stables.

🏆 La Grande Révélation : Qui est le vrai coupable (ou le vrai héros) ?

Après avoir éliminé les fausses pistes et les modèles confus, une seule variable a résisté à tous les tests et est apparue comme le facteur le plus stable et le plus important pour réduire la pauvreté : Les Compétences Numériques (ICT).

Ce que cela signifie : Les provinces où les gens savent utiliser l'informatique et Internet sont systématiquement moins pauvres.
La nuance importante : Les auteurs précisent que l'informatique n'est peut-être pas la seule cause magique. C'est plutôt un symptôme d'un paquet complet de réussite. Une province qui a de bonnes compétences numériques a probablement aussi de bonnes écoles, de bons hôpitaux et une bonne économie. L'informatique est le "drapeau" qui indique que toute la province est bien développée.

🗺️ Et la géographie alors ? (Le facteur "Proximité")

On pensait que la pauvreté se propageait comme une tache d'huile : si une province est pauvre, celle d'à côté le sera aussi à cause de la proximité.

La découverte : Non, pas vraiment. Une fois qu'on prend en compte les facteurs réels (école, santé, numérique), la "magie" de la géographie disparaît.
L'analogie : C'est comme si deux voisins étaient pauvres non pas parce qu'ils se parlent trop, mais simplement parce qu'ils habitent dans le même quartier avec les mêmes écoles et les mêmes routes. La géographie n'est pas une cause mystérieuse, c'est juste un reflet des conditions de vie réelles.

💡 La Leçon pour la Vie Réelle

Cette étude nous enseigne une leçon précieuse pour la prise de décision politique :

Moins, c'est parfois plus : Quand on a peu de données, les modèles mathématiques complexes et "intelligents" (Machine Learning) peuvent être dangereux car ils inventent des histoires. Les modèles simples et disciplinés sont plus fiables.
L'informatique est centrale : Pour réduire la pauvreté en Indonésie, il ne faut pas seulement construire des routes, mais surtout investir dans la formation aux compétences numériques. C'est le meilleur indicateur de réussite.
Attention aux illusions : Ne faites pas confiance aux résultats qui changent tout le temps. La stabilité est la clé de la vérité.

En résumé, pour comprendre la pauvreté dans un petit groupe de régions, il vaut mieux être un détective simple, prudent et bien équipé, plutôt qu'un super-héros technologique qui voit des fantômes là où il n'y en a pas.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'étude aborde le défi méthodologique majeur de l'analyse des déterminants structurels de la pauvreté au niveau provincial en Indonésie. Le contexte présente trois obstacles statistiques critiques :

Petite taille de l'échantillon : Seuls 34 provinces sont disponibles ( $n=34$ ), ce qui rend l'estimation des paramètres incertaine et augmente le risque de surajustement (overfitting) avec des modèles complexes.
Multicolinéarité élevée : Les prédicteurs socio-économiques (compétences en TIC, assainissement, électricité, espérance de vie) sont fortement corrélés entre eux. Cela déstabilise les estimations des coefficients dans les modèles linéaires classiques (MCO), pouvant entraîner des inversions de signes erronées et des recommandations politiques trompeuses.
Dépendance spatiale : Les taux de pauvreté présentent un regroupement géographique, soulevant la question de savoir si cette structure spatiale est un effet de spillover réel ou simplement un proxy de covariables socio-économiques partagées.

L'objectif est d'identifier la méthodologie la plus robuste pour isoler les véritables moteurs structurels de la pauvreté dans un environnement de données contraint, afin d'éviter les « faux positifs » dans l'élaboration des politiques publiques.

2. Méthodologie

Les auteurs adoptent une stratégie comparative rigoureuse évaluant 15 modèles distincts regroupés en cinq catégories, tous validés par une Validation Croisée Leave-One-Out (LOOCV) stricte (34 plis) pour garantir une estimation précise de l'erreur de prédiction hors échantillon.

Données : Données transversales de 2024 pour les 34 provinces indonésiennes.
- Variable dépendante : Taux de pauvreté provincial.
- Prédicteurs (9) : Années de scolarité, espérance de vie, besoins sanitaires non satisfaits, coefficient de Gini, accès à l'assainissement, à l'eau potable, à l'électricité, taux de chômage et compétences en TIC.
Modèles évalués :
1. Références fréquentistes : MCO (Ordinary Least Squares), Régression Ridge, LASSO, Elastic Net.
2. Approches Bayésiennes : Régression linéaire avec priors faiblement informatifs, Ridge Bayésien, LASSO Bayésien, priors de type Horseshoe (shrinkage global-local), et sélection de variables Spike-and-Slab.
3. Modèles Spatiaux : Modèle ICAR (Intrinsic Conditional Autoregressive) de type BYM2 pour capturer les effets spatiaux résiduels.
4. Ensembles d'apprentissage automatique (Machine Learning) : BART (Bayesian Additive Regression Trees), Random Forest, XGBoost.
5. Autres : Régression Beta (pour les données bornées) et Régression par Processus Gaussien.
Critère d'évaluation principal : L'erreur quadratique moyenne en validation croisée (LOOCV-RMSE). Ce critère est privilégié car il permet une comparaison directe sur l'échelle originale (pourcentage de pauvreté) entre des modèles de familles différentes (linéaires, bayésiens, non-paramétriques).

3. Résultats Clés

A. Performance Prédictive et Stabilité des Modèles

Les résultats démontrent que la complexité algorithmique est un risque dans les petits échantillons :

Les modèles linéaires régularisés dominent : Les modèles de régression pénalisée (Ridge, LASSO, Elastic Net) obtiennent les meilleurs scores de LOOCV-RMSE (environ 3,61 à 3,67). Ils réussissent à réduire la variance sans introduire de biais excessif.
Échec des modèles complexes : Les modèles non linéaires très flexibles, en particulier BART, souffrent d'un surajustement catastrophique (RMSE = 7,50), presque le double de l'erreur des modèles linéaires. Les Processus Gaussiens et les forêts aléatoires montrent également une généralisation médiocre par rapport aux modèles régularisés.
Inutilité du modèle spatial : Bien que les taux de pauvreté bruts soient spatialement agrégés (Moran's I = 0,358), une fois les covariables socio-économiques incluses, la dépendance spatiale résiduelle disparaît. L'ajout d'un effet spatial aléatoire (modèle ICAR) n'améliore pas la précision prédictive et ajoute une surcharge paramétrique inutile.

B. Identification des Déterminants Structurels

Compétences en TIC (ICT Skills) : C'est le seul prédicteur qui reste stable et significatif à travers tous les modèles régularisés performants (fréquentistes et bayésiens). Dans le modèle Horseshoe et la sélection Spike-and-Slab, les compétences en TIC sont les seules à conserver un intervalle de crédibilité excluant zéro et une probabilité d'inclusion postérieure élevée (0,969).
Instabilité des autres variables : Des variables théoriquement importantes comme la scolarité, l'assainissement ou l'espérance de vie voient leurs signes et significativités fluctuer ou devenir insignifiants sous l'effet de la régularisation, en raison de leur forte corrélation avec les TIC.
Interprétation : Les compétences en TIC ne doivent pas être vues comme un levier causal isolé, mais comme un proxy composite robuste d'un ensemble plus large d'avantages provinciaux (qualité institutionnelle, intégration économique, accès aux services).

4. Contributions Principales

Preuve empirique de la supériorité de la régularisation linéaire : L'article démontre que, dans les analyses régionales à petit échantillon ( $n < 50$ ) avec forte multicolinéarité, les modèles linéaires pénalisés (Ridge, LASSO) offrent une fondation mathématique plus fiable pour l'inférence politique que les modèles OLS naïfs ou les algorithmes d'apprentissage automatique complexes.
Distinction entre agrégation spatiale et dépendance résiduelle : L'étude valide l'hypothèse selon laquelle la structure spatiale de la pauvreté en Indonésie est principalement expliquée par la distribution des covariables observées, rendant les modèles spatiaux complexes redondants à ce niveau d'agrégation.
Stabilité des compétences en TIC : Identification des compétences en TIC comme le seul indicateur structurel stable capable de résister à la sélection de variables agressive et à la régularisation bayésienne, suggérant leur rôle central dans le développement provincial.

5. Signification et Implications Politiques

Pour la science régionale : L'article sert d'avertissement contre l'utilisation aveugle de modèles « boîte noire » complexes sur des micro-données. Il plaide pour une approche de validation rigoureuse (LOOCV) et une régularisation agressive pour éviter le surajustement.
Pour la politique indonésienne : Les résultats suggèrent que les politiques de réduction de la pauvreté ne doivent pas se concentrer uniquement sur des interventions isolées (ex: seulement l'éducation ou seulement l'eau). Au contraire, les compétences en TIC apparaissent comme le point d'entrée le plus stable pour cibler un « paquet de développement » intégré.
Recommandation : Les décideurs devraient privilégier des stratégies de développement régional intégrées où l'inclusion numérique est poursuivie parallèlement à l'amélioration de l'éducation, de la santé et des services de base, car ces facteurs sont structurellement imbriqués.

En conclusion, cette étude fournit une feuille de route méthodologique pour l'analyse de données régionales contraintes, soulignant que la simplicité contrôlée (régularisation linéaire) l'emporte souvent sur la complexité non contrainte dans les petits échantillons.