Inference-Time Dynamic Modality Selection for Incomplete Multimodal Classification

Ce papier présente DyMo, un cadre d'apprentissage multimodal qui résout le dilemme entre l'abandon et l'imputation des données manquantes en sélectionnant dynamiquement, à l'inférence, les modalités récupérées les plus fiables pour maximiser l'information pertinente à la tâche.

Siyi Du, Xinzhe Luo, Declan P. O'Regan, Chen Qin

Publié 2026-02-24
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Le Problème : Le Dilemme du "Jeter ou Recréer"

Imaginez que vous êtes un chef cuisinier (l'intelligence artificielle) qui doit préparer un plat délicieux (faire une prédiction) en utilisant plusieurs ingrédients (les modalités : des photos, du texte, des données médicales, etc.).

Dans la vraie vie, il arrive souvent qu'il manque des ingrédients parce que le livreur s'est trompé, que le frigo a été ouvert, ou que l'ingrédient est cassé. C'est ce qu'on appelle des données multimodales incomplètes.

Jusqu'à présent, les chefs (les anciennes méthodes d'IA) avaient deux options, et toutes les deux posaient problème :

  1. Jeter l'ingrédient manquant (Recovery-free) : Le chef dit : "Bon, il manque la tomate, je vais juste cuisiner avec ce qu'il reste."
    • Le problème : Si la tomate était l'ingrédient le plus important pour le goût, le plat sera fade. On perd une information précieuse.
  2. Recréer l'ingrédient manquant (Recovery-based) : Le chef dit : "Je vais inventer une tomate de toutes pièces !"
    • Le problème : La tomate inventée peut être bizarre, déformée, ou même toxique (bruit). Si on l'ajoute au plat, on risque de gâcher tout le goût.

C'est ce que les auteurs appellent le "dilemme du jetage ou de l'imputation" : soit on perd de l'info, soit on ajoute du bruit.

La Solution : DyMo, le Chef Intuitif

Les auteurs proposent une nouvelle méthode appelée DyMo. Imaginez DyMo comme un chef d'orchestre très intelligent qui ne jette rien, mais qui ne met pas non plus n'importe quoi dans le plat.

Voici comment DyMo fonctionne, étape par étape :

1. La Cuisine de Recette (L'Architecture)

DyMo est équipé d'une cuisine flexible. Peu importe quels ingrédients sont présents (une photo seule, du texte seul, ou un mélange), il sait les assembler pour essayer de faire un plat. Il est capable de travailler avec n'importe quelle combinaison.

2. Le Test du Goût (L'Algorithme de Sélection)

C'est ici que la magie opère. Quand un ingrédient manque, DyMo demande à un assistant de recréer cet ingrédient (par exemple, générer une image manquante). Mais au lieu de l'ajouter bêtement, il fait un test :

  • Il prend le plat actuel (avec les ingrédients réels).
  • Il ajoute l'ingrédient recréé.
  • Il se demande : "Est-ce que ce nouvel ingrédient améliore vraiment le goût du plat ?"

Pour le savoir, il utilise une astuce mathématique intelligente : il regarde si l'ajout de cet ingrédient rend la prédiction du chef plus confiante (moins d'erreurs).

  • Si l'ingrédient recréé est bon et utile : Il l'ajoute ! (C'est un "récompense positive").
  • Si l'ingrédient recréé est flou, bizarre ou faux : Il le rejette ! (C'est une "récompense négative").

3. Le Tri Itératif (La Boucle)

DyMo ne se contente pas de faire un seul test. Il le fait itérativement.

  • Il regarde tous les ingrédients manquants recréés.
  • Il choisit le meilleur candidat.
  • Il l'ajoute au plat.
  • Il recommence le test avec les ingrédients restants.
  • Il s'arrête quand il n'y a plus d'ingrédients utiles à ajouter.

C'est comme si le chef goûtait le plat à chaque étape et ne gardait que les épices qui améliorent vraiment la saveur, en ignorant celles qui sont pourries.

Pourquoi c'est génial ? (Les Résultats)

Les auteurs ont testé DyMo sur des tas de situations réelles :

  • Reconnaissance de chiffres (PolyMNIST).
  • Analyse de visages (CelebA).
  • Diagnostic médical (UK Biobank : maladies cardiaques).

Les résultats montrent que DyMo bat tous les autres chefs (les méthodes actuelles) :

  • Il ne perd pas les informations importantes (contrairement à ceux qui jettent les données).
  • Il ne se fait pas piéger par les fausses données (contrairement à ceux qui recréent tout bêtement).
  • Il s'adapte dynamiquement : parfois il utilise 2 ingrédients, parfois 4, selon ce qui est disponible et fiable.

En Résumé

Imaginez que vous avez un ami qui vous aide à résoudre une énigme, mais cet ami a parfois des réponses fausses ou floues.

  • L'ancienne méthode disait : "Ignore ton ami s'il manque une pièce, ou accepte tout ce qu'il dit."
  • DyMo, c'est un ami qui dit : "Attends, vérifions si ta nouvelle réponse aide vraiment à résoudre l'énigme. Si oui, on l'ajoute. Si c'est du n'importe quoi, on l'oublie."

C'est une méthode qui apprend à faire confiance intelligemment aux données recréées, rendant l'intelligence artificielle beaucoup plus robuste et fiable dans le monde réel, où les données sont souvent incomplètes ou imparfaites.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →