CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

Le papier présente CoME, une architecture d'agents mobiles innovante composée d'experts spécialisés et entraînée via une stratégie progressive et une méthode DPO guidée par le gain d'information pour optimiser le raisonnement hybride et surpasser les méthodes existantes sur les jeux de données AITZ et AMEX.

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan

Publié 2026-03-09
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

📱 CoME : Le Chef d'Orchestre de votre Smartphone

Imaginez que vous demandez à un robot de vous aider à réserver un vol sur votre téléphone. Ce n'est pas aussi simple que de dire "Réserve un vol". Le robot doit faire une série de choses complexes :

  1. Regarder l'écran et comprendre ce qu'il voit (c'est le "résumé").
  2. Penser à la prochaine étape (c'est le "plan").
  3. Décider quelle action faire (c'est la "décision").
  4. Exécuter le clic ou la frappe exacte (c'est la "fonction").

Le problème avec les intelligences artificielles actuelles (les "agents mobiles"), c'est qu'elles essaient de tout faire avec un seul cerveau généraliste. C'est comme demander à un seul cuisinier d'être à la fois chef, serveur, barman et plongeur en même temps. Résultat ? Il se trompe souvent, ou il est excellent pour l'un mais nul pour l'autre.

C'est ici qu'intervient CoME (Channel-of-Mobile-Experts).

🎭 L'Analogie du Théâtre : Une Troupe de Spécialistes

Au lieu d'avoir un seul acteur qui joue tous les rôles, CoME imagine une troupe de théâtre avec quatre experts spécialisés, chacun dans son domaine :

  • L'Observateur : Il décrit ce qu'il voit sur l'écran.
  • Le Stratège : Il imagine le plan de bataille.
  • Le Décideur : Il choisit la meilleure action.
  • L'Exécutant : Il pose le doigt exactement au bon endroit.

La grande innovation de CoME, c'est la façon dont ils travaillent ensemble.

  • Les anciennes méthodes (MoE) : C'est comme si le directeur de théâtre choisissait qui parle en fonction de ce qui est écrit dans le script. Si le script parle de "vol", il appelle l'expert "Voyage". Mais si le script change de sujet, il peut appeler le mauvais expert au mauvais moment.
  • La méthode CoME : C'est comme si le directeur regardait l'étape actuelle de la pièce.
    • Si on est au début de la scène (décrire l'écran), il active uniquement l'Observateur.
    • Si on est au milieu (faire un plan), il active uniquement le Stratège.
    • À la fin (cliquer), il active uniquement l'Exécutant.

C'est ce qu'ils appellent l'"activation orientée sortie". Le système sait exactement quel expert est nécessaire à chaque instant pour produire la bonne réponse.

🧠 L'Entraînement : Une École en Trois Étages

Pour que cette troupe fonctionne parfaitement, les chercheurs ont créé une méthode d'entraînement progressive, comme une école en trois niveaux :

  1. Niveau 1 : L'École des Experts (Expert-FT)
    Chaque expert va dans sa propre classe pour devenir un champion dans son domaine. L'Observateur apprend à décrire des écrans, le Stratège apprend à planifier, etc. Ils deviennent des experts pointus.

  2. Niveau 2 : Le Directeur de Scène (Router-FT)
    On apprend au "chef d'orchestre" (le routeur) à savoir qui appeler à quel moment. Il apprend à ne pas appeler l'Exécutant quand on a besoin d'un Plan. Il apprend à synchroniser l'activation avec le moment de la réflexion.

  3. Niveau 3 : La Répétition Générale (CoT-FT)
    Toute la troupe répète ensemble. Ils apprennent à travailler en harmonie, à ne pas se marcher sur les pieds, et à équilibrer leurs forces pour résoudre des problèmes complexes.

⚡ Le Super-Pouvoir : Éviter les Erreurs en Cascade (Info-DPO)

Le plus grand danger dans la réflexion étape par étape, c'est l'effet domino. Si vous faites une petite erreur au début (par exemple, mal décrire l'écran), tout le reste sera faux, même si les étapes suivantes sont logiques.

Pour régler ça, CoME utilise une technique géniale appelée Info-DPO.
Imaginez que vous êtes un professeur qui corrige un devoir.

  • L'ancien système regardait seulement la note finale : "C'est juste ou c'est faux".
  • Le système CoME (Info-DPO) regarde chaque phrase du devoir. Il se demande : "Est-ce que cette phrase a apporté de l'information utile pour arriver à la bonne réponse ?"

Si une étape de réflexion ajoute de la confusion (elle enlève de l'information utile), le système la pénalise. S'elle clarifie la situation, il la récompense. Cela force le robot à ne garder que les étapes de réflexion utiles et claires, éliminant les "brouillons" mentaux qui pourraient mener à l'erreur.

🏆 Le Résultat : Pourquoi c'est mieux ?

Les tests montrent que CoME bat toutes les autres méthodes (aussi bien les modèles "tout-en-un" que les modèles "experts" classiques) sur deux grands bancs d'essai (AITZ et AMEX).

  • Plus précis : Il fait moins d'erreurs de clic ou de frappe.
  • Plus équilibré : Il est bon partout, pas juste dans un domaine.
  • Plus efficace : Il utilise moins de mémoire de votre téléphone tout en étant plus intelligent.

En Résumé

CoME, c'est comme passer d'un couteau suisse (qui fait tout, mais moyennement) à une boîte à outils complète où chaque outil est utilisé par un expert au moment précis où il est nécessaire. Grâce à une méthode d'entraînement intelligente et une capacité à éliminer les pensées inutiles, CoME rend les robots mobiles beaucoup plus fiables pour nous aider dans notre vie quotidienne.