The Theory behind UMAP?

Cet article corrige les erreurs présentes dans la version originale de l'algorithme UMAP et fournit une dérivation complète et autonome des foncteurs de Spivak ainsi que de leur variante finie utilisée par McInnes et al.

David Wegmann

Publié 2026-03-05
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🌍 Le Guide de l'Explorateur : Réparer la carte du monde des données

Imaginez que vous êtes un explorateur moderne. Vous avez un tas de données (des points sur une carte) qui sont très complexes, comme une forêt dense vue du ciel. Votre but est de dessiner une carte simplifiée (en 2D ou 3D) qui garde l'essentiel de la forme de la forêt : où sont les rivières, où sont les montagnes, et quelles zones sont proches les unes des autres.

C'est ce que fait l'algorithme UMAP, très populaire chez les scientifiques. Mais il y a un problème : la "théorie" qui explique pourquoi UMAP fonctionne a été écrite un peu à la hâte, comme une brouillon de carte avec des trous et des erreurs.

Ce document, écrit par David Wegmann, c'est l'histoire d'un architecte qui décide de réparer cette carte. Il ne se contente pas de dire "ça marche", il veut prouver exactement pourquoi, en corrigeant les erreurs mathématiques des auteurs originaux.

Voici les 4 étapes de son voyage, expliquées simplement :


1. Le Problème : Une carte avec des trous 🗺️💥

Les créateurs d'UMAP (McInnes et al.) ont utilisé une idée mathématique très abstraite venant d'un autre chercheur (Spivak). Ils ont essayé de transformer des données floues (où un point peut appartenir à plusieurs groupes en même temps avec plus ou moins de force) en une forme géométrique.

L'analogie : Imaginez que vous essayez de construire une maison avec des briques qui changent de taille selon l'humeur. Les créateurs d'UMAP ont dit : "On va utiliser ces briques !". Mais en regardant de plus près, David Wegmann s'aperçoit que :

  • Certaines formules utilisent des logarithmes de zéro (ce qui est mathématiquement impossible, comme diviser par zéro).
  • Certaines règles de "collage" des briques ne fonctionnent pas toujours.
  • Ils ont mélangé des concepts qui ne devraient pas être mélangés.

C'est comme si le plan de la maison disait : "Mettez un mur ici", mais le mur tombait tout de suite parce que les fondations étaient mal calculées.

2. La Solution : Reconstruire les fondations 🏗️✨

David Wegmann reprend tout depuis le début. Il ne jette pas la maison, il la reconstruit avec des matériaux solides.

  • Les "Ensembles Flous" (Fuzzy Sets) : Imaginez un nuage de points. Un point peut être "très proche" du centre ou "juste un peu proche". En mathématiques classiques, un point est dedans ou dehors. Ici, on a un degré d'appartenance (comme un volume de musique : 100%, 50%, 10%).
  • La Réparation : Wegmann montre comment transformer ces "nuages de probabilités" en objets géométriques solides (des espaces métriques) sans faire d'erreurs de calcul. Il remplace les formules cassées par des versions qui fonctionnent toujours, même dans les cas extrêmes.

L'image : Il remplace les briques fragiles par du béton armé. Il montre comment mesurer la "distance" entre deux points quand cette distance peut être infinie ou nulle, ce qui est crucial pour les données complexes.

3. Le Secret : Les "Briques" de taille variable 🧱📏

Le cœur de la théorie d'UMAP, c'est la réalisation métrique. C'est un processus qui prend un objet abstrait (un ensemble de données floues) et le transforme en un objet physique (un espace géométrique).

  • L'analogie des Lego : Imaginez que vous avez des Lego. Dans la version originale (Spivax/McInnes), la taille du Lego changeait bizarrement selon la "force" du point, ce qui créait des trous.
  • La version de Wegmann : Il dit : "Gardons le même Lego, mais changeons la façon dont on le mesure." Il utilise une règle mathématique précise (la métrique L1L_1, ou distance de Manhattan, comme dans un jeu de ville en grille) pour s'assurer que tout colle parfaitement, sans que les pièces ne se chevauchent ou ne laissent de vides.

Il prouve que si vous suivez ses règles, vous obtiendrez toujours une forme géométrique valide, peu importe la complexité des données d'entrée.

4. Le Lien avec UMAP : La carte finale 🗺️🚀

Enfin, Wegmann regarde comment tout cela se relie à l'algorithme UMAP que tout le monde utilise.

  • Ce que dit UMAP : "On prend nos données, on crée un graphe (des points reliés par des lignes), et on le comprime."
  • Ce que prouve Wegmann : Il montre que l'étape où UMAP "comprime" les données est en fait une application de sa théorie réparée.
    • Les lignes du graphe sont comme des "ponts" entre des îles de données.
    • La "force" de la ligne (le poids) indique à quel point les îles sont proches.
    • L'algorithme essaie de recréer une carte 2D où la longueur des ponts correspond à la force des liens.

Le verdict : Wegmann confirme que l'intuition d'UMAP est bonne, mais il précise que certaines justifications mathématiques dans l'article original étaient un peu "magiques" (ou erronées). Il remplace la magie par des mathématiques solides.

🎯 En résumé

Ce document est un manuel de réparation pour les mathématiciens et les data scientists.

  • Avant : "Faites confiance à la théorie, ça marche bien en pratique, même si les formules sont un peu bizarres."
  • Après (avec Wegmann) : "Voici exactement comment les formules doivent fonctionner, pourquoi elles fonctionnent, et comment on peut les utiliser sans avoir peur que tout s'effondre."

C'est comme passer d'une recette de cuisine écrite sur un essuie-tout taché ("ajoutez un peu de sel, peut-être") à un livre de cuisine professionnel avec des mesures exactes et des explications sur la chimie des aliments. Le plat (UMAP) reste délicieux, mais maintenant vous savez exactement pourquoi il a bon goût.