CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu para um assistente virtual (um "Agente Móvel") fazer uma reserva de viagem no seu celular: "Reserve um voo para Roma saindo de Londres no dia 1º de junho, apenas voos diretos".

Para um humano, isso parece fácil. Mas para um robô, é um quebra-cabeça gigante que exige quatro habilidades diferentes ao mesmo tempo:

Entender a tela: Ler o que está escrito e ver os botões.
Planejar: Decidir quais passos dar (abrir o app, digitar a data, etc.).
Decidir a ação: Escolher qual botão clicar.
Executar: Mover o "dedo" virtual para o lugar exato.

O problema é que os robôs atuais são como alunos generalistas: eles tentam fazer tudo com a mesma "mente", o que muitas vezes resulta em confusão. Eles podem ser ótimos em ler a tela, mas ruins em planejar, ou vice-versa. E quando erram um passo no meio do caminho, o erro se propaga e estraga todo o resultado final.

Aqui entra o CoME (Channel-of-Mobile-Experts), a solução proposta neste artigo. Vamos usar uma analogia para entender como funciona:

1. O CoME: Uma Equipe de Especialistas, não um "Tudo-em-Um"

Imagine que, em vez de ter um único funcionário tentando fazer tudo, você contrata uma equipe de quatro especialistas para trabalhar juntos em uma linha de montagem:

O Analista (Screen Summary): Só olha a tela e descreve o que vê.
O Planejador (Subtask Plan): Só pensa no próximo passo lógico.
O Estrategista (Action Decision): Decide qual botão apertar.
O Executor (Action Function): Calcula exatamente onde o dedo deve cair na tela.

A Grande Inovação (Ativação Orientada à Saída):
Em sistemas antigos (chamados MoE), o sistema escolhia qual especialista usar baseado no que estava entrando (como se o Analista recebesse o pedido todo).
No CoME, o sistema é inteligente: ele sabe exatamente em qual etapa da conversa o robô está.

Se o robô precisa descrever a tela, ele acorda o Analista.
Se precisa planejar, acorda o Planejador.
Se precisa clicar, acorda o Executor.

É como se um maestro (o roteador) olhasse para a partitura e dissesse: "Agora, toca o violino!" (Analista) e depois "Agora, toca o tambor!" (Executor). Isso garante que a habilidade certa seja usada no momento certo.

2. O Treinamento: Uma Escola de 3 Etapas

Para que essa equipe funcione perfeitamente, os autores criaram um método de ensino progressivo:

Treino dos Especialistas (Expert-FT): Cada especialista estuda sozinho, focado apenas na sua matéria. O Analista estuda apenas descrições de telas; o Executor estuda apenas coordenadas de clique. Isso os torna mestres em suas áreas.
Treino do Maestro (Router-FT): Ensina o maestro a saber exatamente quando chamar cada especialista. Ele aprende a não chamar o Executor quando deveria estar chamando o Planejador.
Treino de Colaboração (CoT-FT): Ensina a equipe a trabalhar junta, garantindo que o que o Analista diz faça sentido para o Planejador, e assim por diante.

3. O "Detector de Mentiras" (Info-DPO)

Mesmo com especialistas, às vezes o robô pode pensar: "Vou clicar aqui... não, melhor ali... na verdade, vou clicar no céu". Se ele errar o pensamento no meio do caminho, o resultado final será errado.

O CoME usa uma técnica chamada Info-DPO (Baseada em Ganho de Informação).
Pense nisso como um detector de mentiras para o raciocínio.

O sistema pergunta a cada passo: "Esse pensamento que você acabou de ter trouxe mais clareza para a resposta final ou apenas confusão?"
Se o pensamento ajudou a reduzir a dúvida (ganho de informação positivo), ele é recompensado.
Se o pensamento foi um desvio ou um erro (ganho negativo), ele é punido e ensinado a não repetir.

Isso impede que um pequeno erro no início da frase destrua toda a viagem de férias do robô.

Resumo da Ópera

O CoME é como transformar um funcionário sobrecarregado e generalista em uma equipe de cirurgiões de elite, onde cada um faz apenas o que sabe fazer de melhor, no momento exato, e são constantemente supervisionados para garantir que cada passo do pensamento seja lógico e útil.

O Resultado?
Nos testes, esse sistema superou todos os outros robôs existentes, fazendo tarefas no celular com mais precisão, menos erros e usando menos memória do computador (o que é ótimo para rodar em celulares reais). Ele não apenas "adivinha" o que fazer, ele raciocina de forma organizada e eficiente.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: CoME (Channel-of-Mobile-Experts)

1. Problema e Motivação

Os Agentes Móveis (Mobile Agents) têm como objetivo executar instruções de usuários autonomamente em dispositivos móveis. Para isso, eles precisam realizar um raciocínio de capacidades híbridas (hybrid-capabilities reasoning), que envolve quatro etapas distintas e interdependentes:

Resumo da Tela: Perceber e descrever o estado atual da interface.
Planejamento de Subtarefas: Definir os próximos passos lógicos.
Decisão de Ação: Escolher qual ação de alto nível executar.
Função de Ação: Gerar a chamada de função técnica (ex: coordenadas de clique, texto de input).

Desafios Atuais:

Modelos Densos: Modelos de linguagem multimodal (MLLMs) tradicionais tendem a ter desempenho desbalanceado; eles podem ser bons em entender a tela, mas ruins em planejar ações, ou vice-versa. É difícil aprimorar capacidades específicas sem prejudicar as outras.
Mistura de Especialistas (MoE) Tradicional: As arquiteturas MoE existentes utilizam ativação orientada à entrada (input-oriented activation), onde os tokens de entrada são roteados para diferentes especialistas. No entanto, o raciocínio móvel ideal requer ativação orientada à saída (output-oriented activation), onde o especialista ativado deve corresponder à fase do raciocínio (ex: usar um especialista de "planejamento" apenas quando se está gerando tokens de planejamento), e não apenas ao tipo de token de entrada.
Propagação de Erros: Em cadeias de raciocínio longas (CoT), erros em etapas intermediárias (como um plano de sub-tarefa incorreto) propagam-se, levando a falhas na ação final, mesmo que a conclusão pareça lógica.

2. Metodologia Proposta

O artigo propõe o CoME (Channel-of-Mobile-Experts), uma nova arquitetura de agente que resolve os problemas acima através de três pilares principais:

A. Arquitetura CoME e Ativação Orientada à Saída

Especialistas Dedicados: O CoME estende as camadas FFN (Feed-Forward Networks) do modelo base com quatro especialistas distintos, cada um especializado em uma etapa do raciocínio:
- $E_{ss}$ : Resumo da Tela (Screen Summary).
- $E_{sp}$ : Planejamento de Subtarefa (Subtask Plan).
- $E_{ad}$ : Decisão de Ação (Action Decision).
- $E_{af}$ : Função de Ação (Action Function).
Ativação Orientada à Saída: Diferente do MoE tradicional, o CoME utiliza um Roteador de Canal (Channel Router). Em vez de rotear tokens de entrada, o roteador seleciona os estados ocultos (hidden states) do especialista correto com base na etapa atual do raciocínio. Isso garante que a capacidade necessária seja ativada exatamente quando é necessária para gerar os tokens de saída.

B. Estratégia de Treinamento Progressiva
Para empoderar o CoME, os autores propõem um currículo de treinamento em três estágios:

Expert-FT (Fine-tuning de Especialistas): Treina as camadas FFN de cada especialista separadamente em dados específicos de sua capacidade (ex: apenas dados de resumo de tela para $E_{ss}$ ). Isso desacopla e aprimora as capacidades individuais.
Router-FT (Fine-tuning do Roteador): Treina o roteador de canal usando rótulos que indicam qual especialista deve ser ativado em cada token de saída. Isso alinha a ativação do especialista com a fase do raciocínio.
CoT-FT (Chain-of-Thought Fine-tuning): Treina o modelo completo com dados de raciocínio de capacidades híbridas para facilitar a colaboração fluida e a otimização balanceada entre os especialistas.

C. InfoGain-Driven DPO (Info-DPO)
Para mitigar a propagação de erros, os autores introduzem o Info-DPO, uma técnica baseada em Direct Preference Optimization (DPO) que utiliza Ganho de Informação (Information Gain).

Mecanismo: Um modelo de recompensa estima a entropia da ação final antes e depois de cada etapa de raciocínio. A redução na entropia (ganho de informação) quantifica o quanto aquela etapa intermediária contribuiu positivamente para a resposta correta.
Aplicação: O Info-DPO seleciona trajetórias de raciocínio onde todas as etapas intermediárias fornecem ganho de informação positivo e suprimem aquelas que contêm passos de raciocínio irrelevantes ou errados, mesmo que o resultado final seja acidentalmente correto. Isso força o modelo a aprender raciocínios robustos e informativos.

3. Principais Contribuições

Arquitetura CoME: Propõe uma arquitetura inovadora com ativação orientada à saída, desacoplando capacidades de raciocínio em especialistas dedicados e alinhando sua ativação com as fases do processo de decisão.
Estratégia de Treinamento Progressiva: Desenvolve um pipeline de três etapas (Expert-FT, Router-FT, CoT-FT) que permite o aprimoramento desacoplado e a integração balanceada de múltiplas capacidades.
Info-DPO: Introduz uma nova função de recompensa baseada em ganho de informação para o DPO, capaz de identificar e suprimir passos de raciocínio inválidos, mitigando a propagação de erros em cadeias de pensamento longas.

4. Resultados Experimentais

O CoME foi avaliado nos conjuntos de dados AITZ e AMEX, comparando-se com agentes móveis densos e modelos MoE esparsos.

Desempenho Geral: O CoME superou consistentemente os baselines.
- No dataset AITZ, obteve a maior precisão geral de correspondência de ação (66.98%), superando agentes densos em +1.73% e modelos MoE em +5.72% (com parâmetros ativados equivalentes).
- No dataset AMEX, alcançou 72.61% de precisão geral, superando o melhor modelo denso em +1.90% e modelos MoE em +8.05%.
Equilíbrio de Capacidades: Diferente de outros modelos que têm desempenho desbalanceado (ex: bons em "STOP", ruins em "CLICK"), o CoME demonstrou um desempenho mais uniforme entre todos os tipos de ação (Scroll, Click, Type, Press, Stop).
Análise de Ablação:
- A remoção do Info-DPO causou uma queda de ~4.68% na precisão, provando sua eficácia contra a propagação de erros.
- A remoção do Router-FT causou uma queda de ~4.08%, confirmando que o alinhamento correto do especialista com a fase do raciocínio é crucial.
Eficiência: O CoME (5B parâmetros ativados) atingiu maior precisão com menor uso de memória de GPU (11.69 GB) em comparação a modelos densos de 7B e MoEs de 3B.

5. Significado e Impacto

O trabalho CoME representa um avanço significativo na área de agentes autônomos móveis ao abordar a complexidade do raciocínio híbrido.

Paradigma de Ativação: A mudança de "ativação orientada à entrada" (padrão em MoE) para "ativação orientada à saída" baseada em fases de raciocínio é uma contribuição teórica e prática importante para tarefas sequenciais complexas.
Qualidade do Raciocínio: Ao utilizar o ganho de informação para filtrar passos intermediários, o CoME não apenas melhora a precisão final, mas também a qualidade e a interpretabilidade do processo de pensamento do agente, tornando-o mais confiável para tarefas críticas em ambientes móveis.
Aplicabilidade: A arquitetura e a estratégia de treinamento são genéricas o suficiente para serem aplicadas a outros tipos de agentes que exigem raciocínio multi-etapa, além de mobile.

Em suma, o CoME demonstra que a especialização modular combinada com um mecanismo de seleção baseado no estado do raciocínio e otimização baseada em informação supera as abordagens monolíticas ou MoE tradicionais para a automação de interfaces móveis.

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

1. O CoME: Uma Equipe de Especialistas, não um "Tudo-em-Um"

2. O Treinamento: Uma Escola de 3 Etapas

3. O "Detector de Mentiras" (Info-DPO)

Resumo da Ópera

Resumo Técnico: CoME (Channel-of-Mobile-Experts)

1. Problema e Motivação

2. Metodologia Proposta

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA