CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een slimme robot hebt die je mobiel voor je moet bedienen. Je zegt: "Boek een vlucht naar Rome," en de robot moet dat doen. Dit klinkt makkelijk, maar voor een computer is dit een enorme puzzel. De robot moet eerst zien wat er op het scherm staat, dan plannen welke stappen nodig zijn, een beslissing nemen en tenslotte klikken of typen.

Het probleem met de huidige robots is dat ze vaak proberen alles in één brein te doen. Het is alsof je vraagt aan een kok om tegelijkertijd te koken, te tellen, te tekenen en te schrijven. Dat gaat vaak mis, of ze zijn erg goed in één ding en slecht in de rest.

De auteurs van dit paper hebben een nieuwe oplossing bedacht, genaamd CoME (Channel-of-Mobile-Experts). Hier is hoe het werkt, vertaald in begrijpelijke taal:

1. Het idee: Een team van specialisten in plaats van één alleskunner

In plaats van één grote, zware robot die alles probeert te doen, hebben ze een team van vier specialisten gemaakt. Denk aan een goed georganiseerd kantoor met vier verschillende afdelingen:

De Schouwer: Kijkt naar het scherm en zegt: "Ik zie een boekingspagina voor vluchten."
De Planner: Bedenkt de stappen: "Eerst de datum kiezen, dan de bestemming."
De Beslisser: Zegt: "Oké, we moeten nu op 'Zoek' klikken."
De Uitvoerder: Voert de daadwerkelijke actie uit: "Klik op die knop op die coördinaten."

2. De slimme truc: "Output-Oriented Activation"

Bij de oude methoden (zoals MoE - Mixture of Experts) wordt er gekeken naar wat er in komt. Dat is alsof je een postbode bent die kijkt naar de envelop en dan beslist wie de brief leest.

CoME doet het anders. Het kijkt naar wat er uit moet komen.

Als de robot een planning moet maken, schakelt hij automatisch de Planner in.
Als hij moet klikken, schakelt hij de Uitvoerder in.

Het is alsof je in een fabriek werkt: als er een auto-assemblage nodig is, gaat de auto-afdeling aan het werk. Als er een verpakking nodig is, gaat de verpakkingsafdeling aan het werk. Ze werken niet door elkaar, maar precies op het moment dat ze nodig zijn. Dit zorgt voor veel minder verwarring en fouten.

3. De training: Eerst leren, dan samenwerken

Om dit team te trainen, gebruiken ze een slimme drie-staps methode:

Expert-FT: Eerst leren de specialisten hun eigen vak. De Planner wordt alleen getraind op plannen, de Uitvoerder alleen op klikken. Zo worden ze allemaal experts in hun eigen ding.
Router-FT: Dan leren ze wie er wanneer aan het woord is. Ze leren dat als er een planning nodig is, ze de Planner moeten aanroepen, en niet de Uitvoerder.
CoT-FT: Tenslotte leren ze samenwerken als een team om een complexe taak af te maken.

4. Het veiligheidsnet: Info-DPO (De "Waarom"-check)

Soms maakt een robot een fout halverwege, maar komt hij toch op het juiste eindresultaat. Dat is gevaarlijk, want de volgende keer gaat het misschien mis.

De auteurs hebben een slimme manier bedacht om te checken of elke stap zinvol was. Ze noemen dit InfoGain (Informatie-voordeel).

Stel je voor dat je een raadsel oplost. Als elke stap je dichter bij het antwoord brengt, is dat goed.
Als een stap je juist verder weg van het antwoord brengt (bijvoorbeeld: "Ik klik op de verkeerde knop, maar door toeval kom ik toch op de juiste pagina"), dan is dat een slechte stap.

CoME gebruikt een systeem dat deze "toevalstreffer"-stappen herkent en straft. Het leert de robot: "Nee, die stap was dom, ook al kwam je op het juiste antwoord. Doe het de volgende keer op de juiste manier."

Conclusie

Kortom, CoME is een slimme mobiele agent die werkt als een goed georganiseerd team van specialisten. Door elke stap in het denkproces aan de juiste expert te geven, en door te controleren of elke stap logisch is, maakt hij veel minder fouten dan de huidige robots.

Het resultaat? Een robot die je mobiel niet alleen bedient, maar het ook begrijpt en slimmer doet, met minder rekenkracht en minder geheugen nodig dan de zware, trage modellen van nu.

Each language version is independently generated for its own context, not a direct translation.

Technische Samenvatting: CoME

1. Het Probleem

Mobiele agents (AI-systemen die autonome taken uitvoeren op mobiele apparaten) moeten complexe instructies van gebruikers vertalen naar acties. Dit vereist hybride-capaciteiten redenering (hybrid-capabilities reasoning), een proces dat vier distincte fasen omvat:

Scherm-samenvatting: Het begrijpen van de huidige schermtoestand.
Subtaak-planning: Het opstellen van een plan voor de volgende stappen.
Actie-beslissing: Het kiezen van het type actie (bijv. klikken, typen).
Actie-functie: Het genereren van de specifieke uitvoeringsparameters (bijv. coördinaten of tekst).

Bestaande methoden kampen met twee fundamentele beperkingen:

Dense Agents: Modellen die alle capaciteiten in één netwerk combineren, hebben moeite om deze vaardigheden te ontkoppelen en evenwichtig te optimaliseren. Vaak wordt één vaardigheid ten koste van een andere verbeterd.
Mixture-of-Experts (MoE): Bestaande MoE-architecturen gebruiken input-georiënteerde activatie (input-oriented activation). Dit betekent dat tokens op basis van hun invoer naar een expert worden gerouteerd. Voor mobiele agents is dit echter suboptimaal, omdat de benodigde capaciteit afhangt van het redeneerstadium (output), niet alleen van de invoer. Een token dat in de "actie-beslissing"-fase wordt gegenereerd, heeft een andere expert nodig dan een token in de "scherm-samenvatting"-fase, zelfs als de invoeridentiek is. Bestaande MoE-modellen kunnen deze output-georiënteerde activatie niet ondersteunen vanwege hun autoregressieve aard.

Bovendien leidt fouten in tussenstappen van het redeneren vaak tot foutpropagatie, waardoor de uiteindelijke actie onjuist is, zelfs als de eindconclusie soms toevallig goed lijkt.

2. Methodologie

De auteurs stellen CoME (Channel-of-Mobile-Experts) voor, een nieuwe agent-architectuur die specifiek is ontworpen om hybride capaciteiten te ontkoppelen en te integreren via output-georiënteerde activatie.

A. Architectuur: CoME

Expert-specialisatie: CoME bevat vier gespecialiseerde experts, elk gekoppeld aan één van de redeneringsfasen:
- $E_{ss}$ : Screen Summary (Scherm-samenvatting)
- $E_{sp}$ : Subtask Plan (Subtaak-planning)
- $E_{ad}$ : Action Decision (Actie-beslissing)
- $E_{af}$ : Action Function (Actie-functie)
Output-georiënteerde activatie: In tegenstelling tot MoE, waarbij de invoer de route bepaalt, routeert CoME de verborgen staten (hidden states) naar de expert die overeenkomt met het huidige stadium van het genereren van een output-token.
- De invoer-tokens worden naar alle experts gestuurd.
- Een Channel Router selecteert de verborgen staten van de juiste expert op basis van het redeneerstadium om de output-token te genereren.

B. Progressieve Trainingsstrategie
Om CoME effectief te maken, wordt een drie-staps trainingsstrategie gebruikt:

Expert-FT (Expert Finetuning): Elke expert wordt apart gefinetuned op specifieke datasets die corresponderen met hun vaardigheid (bijv. alleen scherm-samenvatting data voor $E_{ss}$ ). Dit zorgt voor effectieve ontkoppeling en versterking van individuele capaciteiten.
Router-FT (Router Finetuning): De channel router wordt getraind om de juiste expert te activeren op basis van het redeneerstadium. Dit wordt gedaan met Cross-Entropy loss en een normalisatie-verlies om irrelevante experts te onderdrukken.
CoT-FT (Chain-of-Thought Finetuning): Het volledige model wordt getraind op hybride redeneringsdata om naadloze samenwerking en evenwichtige optimalisatie tussen de experts te bevorderen.

C. InfoGain-Driven DPO (Info-DPO)
Om foutpropagatie te mitigeren, introduceren de auteurs Info-DPO.

Principe: In plaats van alleen te kijken naar het eindresultaat, wordt de bijdrage van elke tussenstap gemeten via informatiewinst (Information Gain).
Implementatie: Een beloningssysteem (reward model) schat de entropie van de juiste actie voor en na een redeneerstadium. De reductie in entropie is de InfoGain.
Doel: Trajecten met positieve InfoGain in elke stap (wat aangeeft dat de stap informatief en logisch is) worden beloond. Trajecten met negatieve InfoGain (waar een stap de voorspelling verslechtert) worden onderdrukt. Dit zorgt ervoor dat het model alleen betrouwbare redeneerstappen leert.

3. Belangrijkste Bijdragen

CoME Architectuur: Een innovatieve agent-structuur die experts ontkoppelt per redeneerstadium en output-georiënteerde activatie implementeert, in plaats van de traditionele input-oriëntatie van MoE.
Progressieve Trainingsstrategie: Een curriculum dat eerst capaciteiten ontkoppelt (Expert-FT), dan de activatie synchroniseert (Router-FT), en tot slot de samenwerking optimaliseert (CoT-FT).
Info-DPO: Een nieuwe Direct Preference Optimization (DPO) methode die gebruikmaakt van informatiewinst om de kwaliteit van tussenstappen in het redeneringsproces te evalueren en foutpropagatie te verminderen.

4. Resultaten

CoME werd geëvalueerd op twee grote datasets: AITZ en AMEX.

Prestaties: CoME presteerde beter dan zowel dense mobiele agents als bestaande MoE-methoden.
- Op de AITZ dataset behaalde CoME een verbetering van +1,73% ten opzichte van dense agents en +5,72% ten opzichte van sparse MoE-modellen (met een vergelijkbaar aantal geactiveerde parameters).
- Op de AMEX dataset (met 9 verschillende apps) behaalde CoME de beste algehele prestatie, met een verbetering van +1,90% ten opzichte van dense modellen en +8,05% ten opzichte van MoE-modellen.
Balans: CoME toonde een veel gebalanceerdere prestatie over verschillende actie-types (zoals klikken, scrollen, typen) in vergelijking met bestaande modellen die vaak sterk waren in één type maar zwak in een ander.
Efficiëntie: Ondanks de complexiteit van meerdere experts, bleek CoME efficiënter in GPU-geheugengebruik dan dense 7B-modellen en andere MoE-varianten, dankzij de slimme architectuur.

5. Betekenis en Impact

Dit paper biedt een fundamentele doorbraak in het ontwerp van autonome mobiele agents.

Paradigmaverschuiving: Het beweert dat voor multi-stadia redenering (zoals in agent-systemen) de activatie van experts moet worden gekoppeld aan het output-stadium en niet alleen aan de invoer. Dit lost een beperking op van bestaande MoE-architecturen.
Betrouwbaarheid: Door Info-DPO in te voeren, adresseert het paper het kritieke probleem van foutpropagatie in Chain-of-Thought redenering. Het zorgt ervoor dat agents niet alleen het juiste antwoord vinden, maar dit ook via logische en informatieve tussenstappen bereiken.
Toepasbaarheid: De CoME-architectuur en de trainingsstrategie zijn niet beperkt tot mobiele agents; ze zijn breed toepasbaar op elk agent-systeem dat complexe, multi-stadia redenering vereist (zoals robotica, software-automatisering, etc.).

Kortom, CoME demonstreert dat het ontkoppelen van capaciteiten via gespecialiseerde experts, gecombineerd met een slimme trainingsstrategie en informatiewinst-gedreven optimalisatie, leidt tot robuustere en nauwkeurigere autonome agents.

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

1. Het idee: Een team van specialisten in plaats van één alleskunner

2. De slimme truc: "Output-Oriented Activation"

3. De training: Eerst leren, dan samenwerken

4. Het veiligheidsnet: Info-DPO (De "Waarom"-check)

Conclusie

Technische Samenvatting: CoME

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA