CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

本文提出了名为 CoME 的新型移动智能体架构,通过引入四个针对特定推理阶段的专家模块、分阶段渐进式训练策略以及基于信息增益的 Info-DPO 优化方法,有效解决了现有移动智能体在屏幕总结、子任务规划等混合能力推理中难以实现解耦增强与平衡协同的问题,并在 AITZ 和 AMEX 数据集上取得了优于密集模型及混合专家方法的表现。

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 CoME(Mobile-Experts 通道)的新人工智能架构,旨在让手机上的 AI 助手变得更聪明、更可靠。

为了让你轻松理解,我们可以把手机 AI 助手想象成一位正在处理复杂任务的“全能管家”

1. 之前的痛点:全能但混乱的“超级大脑”

以前的手机 AI 助手(就像传统的“全能大脑”),试图用同一个大脑处理所有事情:

  • 看屏幕(这是什么界面?)
  • 做计划(接下来该干嘛?)
  • 下决定(点哪里?)
  • 执行操作(具体怎么点?)

问题在于:这个“大脑”虽然什么都懂,但经常顾此失彼

  • 有时候它看屏幕很准,但做计划就乱了。
  • 有时候它计划得很好,但执行时手抖点错了。
  • 就像让一个厨师同时负责切菜、炒菜、摆盘和收银,虽然他能做,但很难在每个环节都做到完美,而且一旦中间某个环节出错(比如切菜切错了),后面的菜就全毁了(错误传播)。

另外,现有的“专家混合”(MoE)技术,就像是一个随机派单系统:不管你现在需要切菜还是炒菜,它都随机叫一个厨师来干活,这显然不够专业。

2. CoME 的解决方案:组建“专业流水线”

CoME 提出了一种全新的思路:不要一个全能大脑,而是组建一个“专业流水线团队”

想象一下,CoME 不是一个人,而是一个拥有四个不同专家的超级团队,他们各司其职:

  1. 观察员专家:专门负责看屏幕,总结“现在屏幕上有什么”。
  2. 规划师专家:专门负责想步骤,“接下来第一步该干嘛”。
  3. 决策者专家:专门负责拍板,“我们要点击那个按钮”。
  4. 执行者专家:专门负责动手,“精确地点击那个坐标”。

核心创新:输出导向的激活(Output-Oriented Activation)
这是 CoME 最厉害的地方。

  • 旧模式(MoE):像是一个随机派单员,看到输入(比如一张图),就随机叫一个专家来干活。
  • CoME 新模式:像是一个智能流水线调度员。它知道现在到了“做计划”的阶段,就只叫“规划师专家”出来干活;到了“执行”阶段,就只叫“执行者专家”出来
  • 比喻:就像在工厂里,到了组装环节,只有组装工人在动;到了喷漆环节,只有喷漆工人在动。这样每个人都能在自己最擅长的领域发挥到极致,互不干扰。

3. 如何训练这支团队?(三步走战略)

为了让这支团队配合默契,作者设计了一套循序渐进的训练方法

  1. 分头特训(Expert-FT)
    • 先把四个专家分开,让他们各自去专门练习自己的技能。观察员只练看图,规划师只练写计划。这样每个人的“绝活”都练得炉火纯青。
  2. 排班训练(Router-FT)
    • 训练那个“调度员”(路由器)。让它学会看时间:现在是“看图时间”就派观察员,现在是“执行时间”就派执行者。确保专家在正确的时间出现在正确的岗位上。
  3. 团队合练(CoT-FT)
    • 让四个专家一起配合,处理复杂的任务。就像乐队排练,确保大家衔接流畅,不会有人掉链子。

4. 防止“一步错,步步错”:信息增益奖励(Info-DPO)

在复杂的任务中,如果中间某一步想错了,后面全都会错。为了解决这个问题,CoME 引入了一个**“信息增益”检查机制**。

  • 比喻:想象你在走迷宫。
    • 普通 AI:只要最后走出迷宫了,就给你发奖金,不管中间是不是乱撞运气撞出来的。
    • CoME (Info-DPO):它会检查你走的每一步
      • 如果你走的这一步,让你离出口更近了(获得了“信息增益”),就奖励你。
      • 如果你走的这一步,让你离出口更远了,或者是在原地打转(没有信息增益,甚至是负增益),就惩罚你,哪怕最后你运气好蒙对了出口。
  • 作用:这迫使 AI 在每一步推理时都要真正有用,而不是凑字数或瞎猜。它剔除了那些“虽然最后对了,但中间过程很蠢”的错误路径,只保留逻辑严密、每一步都贡献价值的推理过程。

5. 结果如何?

实验证明,CoME 在两个主流的手机操作测试数据集(AITZ 和 AMEX)上,打败了所有现有的竞争对手(包括那些参数更大的模型)。

  • 更准:点错的地方少了。
  • 更稳:即使任务很复杂,它也能一步步稳扎稳打。
  • 更高效:虽然它看起来像个团队,但因为每次只激活需要的专家,所以运行起来并不比单一大脑慢多少,甚至更省资源。

总结

CoME 就像把手机 AI 从一个“什么都懂但经常犯迷糊的万金油”,升级成了一个“分工明确、配合默契、每一步都经过严格审核的精英特种部队”。

它不再试图用一种方式解决所有问题,而是在正确的时间,调用正确的专家,做正确的事,并且确保每一步推理都实实在在推动了任务的完成。这就是为什么它能更聪明地帮你点外卖、订票或操作手机的原因。