CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

O artigo apresenta o CoME, uma nova arquitetura de agentes móveis que utiliza quatro especialistas distintos e uma estratégia de treinamento progressiva, juntamente com um método de otimização baseado em ganho de informação, para superar as limitações atuais na integração equilibrada e no aprimoramento desacoplado de capacidades de raciocínio híbrido.

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan

Publicado 2026-03-09
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você pediu para um assistente virtual (um "Agente Móvel") fazer uma reserva de viagem no seu celular: "Reserve um voo para Roma saindo de Londres no dia 1º de junho, apenas voos diretos".

Para um humano, isso parece fácil. Mas para um robô, é um quebra-cabeça gigante que exige quatro habilidades diferentes ao mesmo tempo:

  1. Entender a tela: Ler o que está escrito e ver os botões.
  2. Planejar: Decidir quais passos dar (abrir o app, digitar a data, etc.).
  3. Decidir a ação: Escolher qual botão clicar.
  4. Executar: Mover o "dedo" virtual para o lugar exato.

O problema é que os robôs atuais são como alunos generalistas: eles tentam fazer tudo com a mesma "mente", o que muitas vezes resulta em confusão. Eles podem ser ótimos em ler a tela, mas ruins em planejar, ou vice-versa. E quando erram um passo no meio do caminho, o erro se propaga e estraga todo o resultado final.

Aqui entra o CoME (Channel-of-Mobile-Experts), a solução proposta neste artigo. Vamos usar uma analogia para entender como funciona:

1. O CoME: Uma Equipe de Especialistas, não um "Tudo-em-Um"

Imagine que, em vez de ter um único funcionário tentando fazer tudo, você contrata uma equipe de quatro especialistas para trabalhar juntos em uma linha de montagem:

  • O Analista (Screen Summary): Só olha a tela e descreve o que vê.
  • O Planejador (Subtask Plan): Só pensa no próximo passo lógico.
  • O Estrategista (Action Decision): Decide qual botão apertar.
  • O Executor (Action Function): Calcula exatamente onde o dedo deve cair na tela.

A Grande Inovação (Ativação Orientada à Saída):
Em sistemas antigos (chamados MoE), o sistema escolhia qual especialista usar baseado no que estava entrando (como se o Analista recebesse o pedido todo).
No CoME, o sistema é inteligente: ele sabe exatamente em qual etapa da conversa o robô está.

  • Se o robô precisa descrever a tela, ele acorda o Analista.
  • Se precisa planejar, acorda o Planejador.
  • Se precisa clicar, acorda o Executor.

É como se um maestro (o roteador) olhasse para a partitura e dissesse: "Agora, toca o violino!" (Analista) e depois "Agora, toca o tambor!" (Executor). Isso garante que a habilidade certa seja usada no momento certo.

2. O Treinamento: Uma Escola de 3 Etapas

Para que essa equipe funcione perfeitamente, os autores criaram um método de ensino progressivo:

  1. Treino dos Especialistas (Expert-FT): Cada especialista estuda sozinho, focado apenas na sua matéria. O Analista estuda apenas descrições de telas; o Executor estuda apenas coordenadas de clique. Isso os torna mestres em suas áreas.
  2. Treino do Maestro (Router-FT): Ensina o maestro a saber exatamente quando chamar cada especialista. Ele aprende a não chamar o Executor quando deveria estar chamando o Planejador.
  3. Treino de Colaboração (CoT-FT): Ensina a equipe a trabalhar junta, garantindo que o que o Analista diz faça sentido para o Planejador, e assim por diante.

3. O "Detector de Mentiras" (Info-DPO)

Mesmo com especialistas, às vezes o robô pode pensar: "Vou clicar aqui... não, melhor ali... na verdade, vou clicar no céu". Se ele errar o pensamento no meio do caminho, o resultado final será errado.

O CoME usa uma técnica chamada Info-DPO (Baseada em Ganho de Informação).
Pense nisso como um detector de mentiras para o raciocínio.

  • O sistema pergunta a cada passo: "Esse pensamento que você acabou de ter trouxe mais clareza para a resposta final ou apenas confusão?"
  • Se o pensamento ajudou a reduzir a dúvida (ganho de informação positivo), ele é recompensado.
  • Se o pensamento foi um desvio ou um erro (ganho negativo), ele é punido e ensinado a não repetir.

Isso impede que um pequeno erro no início da frase destrua toda a viagem de férias do robô.

Resumo da Ópera

O CoME é como transformar um funcionário sobrecarregado e generalista em uma equipe de cirurgiões de elite, onde cada um faz apenas o que sabe fazer de melhor, no momento exato, e são constantemente supervisionados para garantir que cada passo do pensamento seja lógico e útil.

O Resultado?
Nos testes, esse sistema superou todos os outros robôs existentes, fazendo tarefas no celular com mais precisão, menos erros e usando menos memória do computador (o que é ótimo para rodar em celulares reais). Ele não apenas "adivinha" o que fazer, ele raciocina de forma organizada e eficiente.