CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

Each language version is independently generated for its own context, not a direct translation.

📱 문제: "모든 일을 혼자서 하려다 지친 AI"

지금까지의 스마트폰 AI 비서들은 보통 **한 명의 '만능 전문가'**처럼 행동했습니다. 화면을 보고, 계획을 세우고, 버튼을 누르고, 입력을 하는 모든 일을 한 뇌로 처리하려 했습니다.
하지만 문제는 이거예요.

화면 분석은 미술관 큐레이터가 필요하고,
계획 수립은 작전 참모가 필요하며,
버튼 누르기는 정교한 기계 조작사가 필요합니다.

이 모든 일을 한 사람이 다 하려고 하면, 어떤 일은 잘하고 어떤 일은 엉망이 되는 불균형이 생기고, 중간에 실수하면 그 실수가 다음 단계로 이어져 결국 실패하게 됩니다. (예: 화면을 잘못 해석하면 잘못된 버튼을 누르게 됨)

🚀 해결책: "전문가 팀을 꾸린 CoME"

저자들은 이 문제를 해결하기 위해 CoME라는 새로운 시스템을 제안했습니다. 이는 마치 한 명의 만능 장인 대신, 각자 특기를 가진 4 명의 전문가 팀을 구성한 것과 같습니다.

1. 4 명의 전문가 (Expert)

CoME 는 4 가지 단계마다 다른 전문가가 나옵니다.

👀 화면 요약 전문가: "지금 화면에 뭐가 떠있지?"라고 상황을 설명합니다.
📝 계획 전문가: "이제 무엇을 해야 할까?"라고 다음 단계를 짭니다.
🎯 결정 전문가: "어떤 버튼을 누를까?"라고 고릅니다.
🖱️ 실행 전문가: "정확히 어디를 클릭할까?"라고 좌표를 정합니다.

2. '출력 지향' 활성화 (Output-Oriented Activation)

기존의 AI 는 "무엇을 입력받았는가"에 따라 전문가를 골랐다면, CoME 는 **"지금 어떤 단계를 수행해야 하는가"**에 따라 전문가를 골라냅니다.

비유: 식당에 손님이 오면 (입력), 메뉴를 보고 요리사가 결정하는 게 아니라, **현재 주문 단계 (전채, 메인, 디저트)**에 따라 가장 적합한 요리사가 나옵니다.
화면을 볼 때는 '화면 전문가'가, 버튼을 누를 때는 '실행 전문가'가 나옵니다. 이렇게 하면 각 단계에서 가장 적합한 두뇌가 작동하여 실수가 줄어듭니다.

🎓 학습 방법: "단계별 훈련 (Progressive Training)"

이 팀이 바로 실전 투입될 수 있도록 3 단계로 훈련시켰습니다.

전문가 훈련 (Expert-FT): 각 전문가가 자신의 일만 집중해서 연습하게 합니다. (예: 화면 전문가만 화면 분석만 연습)
지휘관 훈련 (Router-FT): 언제 누구를 불러야 할지 지휘하는 '로터 (Router)'를 훈련시킵니다. "지금 계획 단계니까 계획 전문가를 불러라!"라고 정확히 지시합니다.
팀워크 훈련 (CoT-FT): 네 명이 함께 일하며 자연스럽게 협력하는 법을 배웁니다.

🛡️ 실수 방지: "정보의 가치로 실수를 걸러내다 (Info-DPO)"

중요한 것은 중간 과정의 실수입니다. 결론만 맞으면 되는데, 중간에 엉뚱한 생각을 하면 나중에 큰 실수가 됩니다.
저자들은 Info-DPO라는 기술을 썼습니다.

비유: 여행 계획을 세울 때, "공항 가는 길에 맛집을 들르는 건 좋은 아이디어인가?"를 평가합니다.
만약 중간 단계가 **최종 목표 (비행기 예약) 에 도움이 되는 정보 (정보 획득량, InfoGain)**를 준다면 점수를 주고, 방해가 되거나 헛된 정보를 준다면 점수를 깎습니다.
이렇게 중간 단계가 얼마나 유용한지를 평가해서, 엉뚱한 생각 (실수) 을 하는 경로를 막아줍니다.

🏆 결과: "더 빠르고, 더 정확하고, 더 가볍게"

실험 결과, CoME 는 기존 AI 들보다 훨씬 더 정확하게 스마트폰 작업을 수행했습니다.

정확도: 버튼 누르기, 입력하기 등 모든 작업에서 성적이 좋아졌습니다.
효율성: 전문가 팀을 구성했지만, 한 번에 모든 전문가를 다 쓰는 게 아니라 필요한 사람만 뽑아쓰기 때문에 컴퓨터 메모리 (GPU) 를 덜 먹으면서도 더 똑똑한 성능을 냈습니다.

💡 한 줄 요약

"모든 일을 혼자 하려다 지친 AI 에게, 각자 특기를 가진 전문가 팀을 꾸리고, 단계별로 가장 적합한 전문가를 불러내며, 중간에 헛된 생각을 걸러내는 시스템을 도입했더니 스마트폰 조작이 훨씬 똑똑해졌습니다!"

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

모바일 에이전트 (Mobile Agents) 는 사용자의 지시를 자율적으로 수행하기 위해 **하이브리드 능력 추론 (Hybrid-Capabilities Reasoning)**이 필요합니다. 이는 다음 네 가지 단계를 포함합니다:

화면 요약 (Screen Summary): 현재 화면 상태 인식.
하위 작업 계획 (Subtask Plan): 다음 단계의 계획 수립.
작업 결정 (Action Decision): 수행할 고수준 작업 결정.
작업 함수 호출 (Action Function): 구체적인 액션 (클릭, 입력 등) 생성.

기존의 모바일 에이전트나 혼합 전문가 (Mixture-of-Experts, MoE) 모델은 다음과 같은 한계를 가집니다:

밀집 모델 (Dense Models): 다양한 능력을 동시에 향상시키고 균형을 맞추기 어렵습니다. 특정 태스크에 치우치거나 전체 성능이 불균형해집니다.
기존 MoE 모델: 입력 토큰을 기반으로 전문가를 선택하는 **입력 지향적 활성화 (Input-oriented Activation)**를 사용합니다. 그러나 모바일 에이전트의 추론 과정은 각 추론 단계 (Screen Summary, Action Decision 등) 에 따라 필요한 능력이 달라지므로, **출력 토큰 생성 단계에 맞춰 전문가를 활성화하는 출력 지향적 활성화 (Output-oriented Activation)**가 필요합니다. 기존 MoE 는 이 요구사항을 충족하지 못해 추론 단계와 전문가의 능력이 불일치하는 문제가 발생합니다.
오류 전파: 중간 추론 단계의 작은 오류가 최종 결과로 전파되어 실패를 초래합니다.

2. 방법론 (Methodology)

저자들은 이러한 문제를 해결하기 위해 Channel-of-Mobile-Experts (CoME) 아키텍처와 **정보 획득 기반 DPO (Info-DPO)**를 제안했습니다.

A. CoME 아키텍처: 출력 지향적 활성화

CoME 는 네 가지 전문화된 전문가 (Expert) 를 포함하는 새로운 에이전트 아키텍처입니다.

4 가지 전문가: 화면 요약 ( $E_{ss}$ ), 하위 작업 계획 ( $E_{sp}$ ), 작업 결정 ( $E_{ad}$ ), 작업 함수 ( $E_{af}$ ) 에 각각 특화되어 있습니다.
출력 지향적 활성화 (Output-oriented Activation): MoE 와 달리, 입력 토큰이 아닌 현재 추론 단계에 필요한 능력을 가진 전문가를 선택하여 출력 토큰을 생성합니다.
- 모든 입력 토큰을 4 개의 전문가 채널로 전달합니다.
- 현재 추론 단계 (예: 화면 요약 단계) 에 해당하는 전문가의 은닉 상태 (Hidden State) 를 선택하여 최종 출력을 생성합니다.
- 이를 위해 **채널 라우터 (Channel Router)**가 각 출력 토큰에 대해 어떤 전문가 채널을 활성화할지 결정합니다.

B. 점진적 훈련 전략 (Progressive Training Strategy)

CoME 의 성능을 극대화하기 위해 3 단계 훈련 전략을 사용합니다:

Expert-FT (전문가 미세조정): 각 전문가를 특정 능력 데이터 (화면 요약, 계획 등) 로 개별적으로 훈련시켜 능력을 분리 (Decoupling) 하고 강화합니다.
Router-FT (라우터 미세조정): 각 출력 토큰의 추론 단계 레이블을 사용하여 채널 라우터를 훈련시킵니다. 이를 통해 추론 단계와 전문가 활성화가 정확히 일치하도록 정렬 (Alignment) 합니다.
CoT-FT (Chain-of-Thought 미세조정): 하이브리드 능력 추론 데이터로 전체 모델을 훈련시켜 전문가 간의 원활한 협업과 균형 잡힌 최적화를 달성합니다.

C. InfoGain-Driven DPO (Info-DPO)

추론 과정 중 발생하는 오류 전파를 방지하고 유효한 중간 단계를 강화하기 위해 제안된 방법입니다.

정보 획득 (Information Gain): 각 중간 추론 단계가 최종 정답 예측에 기여하는 정도를 정보 엔트로피 감소량으로 측정합니다.
보상 설계:
- InfoGain 보상: 중간 단계가 정보량을 증가시켜 (엔트로피 감소) 최종 정답에 긍정적으로 기여하는지 평가합니다.
- 액션 정확도 보상: 최종 액션의 정확도를 평가합니다.
DPO 데이터 선택: InfoGain 과 액션 정확도를 결합하여, 유효한 중간 추론 단계를 가진 경로를 '선택 (Chosen)'으로, 오류가 있거나 정보 기여도가 낮은 경로를 '거부 (Rejected)'로 선택합니다. 이는 모델이 논리적으로 타당한 추론 경로를 학습하도록 유도합니다.

3. 주요 기여 (Key Contributions)

CoME 아키텍처 제안: 화면 요약, 계획, 결정, 실행에 특화된 4 개의 전문가를 도입하고, 추론 단계에 맞춰 전문가를 활성화하는 출력 지향적 활성화 메커니즘을 구현했습니다.
점진적 훈련 전략: 전문가 분리 (Expert-FT), 라우터 정렬 (Router-FT), 협업 최적화 (CoT-FT) 를 통해 하이브리드 능력 추론을 효과적으로 학습하는 커리큘럼을 개발했습니다.
Info-DPO 도입: 정보 획득 (Information Gain) 을 기반으로 중간 추론 단계의 유효성을 정량화하여, 오류 전파를 억제하고 추론 정확도를 높이는 새로운 DPO 전략을 제시했습니다.

4. 실험 결과 (Results)

AITZ 및 AMEX 데이터셋에서 광범위한 실험을 수행했습니다.

성능 우위:
- AITZ: CoME 는 밀집 모델 (Dense) 보다 1.73%, 희소 MoE 모델보다 5.72% 높은 전체 액션 매칭 정확도를 기록했습니다. (특히 CLICK 액션에서 65.22% 달성)
- AMEX: 9 개 앱 전반에서 CoME 는 밀집 모델보다 1.90%, MoE 모델보다 8.05% 더 높은 성능을 보였습니다.
균형 잡힌 성능: 기존 모델들은 특정 액션 유형 (예: SCROLL vs CLICK) 에서 성능 편차가 크지만, CoME 는 모든 액션 유형에서 균형 잡힌 높은 성능을 유지했습니다.
효율성: CoME 는 5B 활성화 파라미터를 사용하면서도 7B 밀집 모델보다 낮은 GPU 메모리 사용량으로 더 높은 정확도를 달성했습니다.
추론 단계 분석: CoME 는 각 추론 단계에서 해당 전문가를 99% 이상의 정확도로 선택하는 것을 확인했습니다. 반면 기존 MoE 는 단계와 무관하게 균일하게 분포되어 성능이 낮았습니다.

5. 의의 및 결론 (Significance)

이 논문은 모바일 에이전트 분야에서 하이브리드 능력 추론의 핵심 과제를 해결하는 새로운 패러다임을 제시합니다.

아키텍처적 혁신: 입력 기반이 아닌 출력 기반 (단계 기반) 전문가 활성화를 통해 복잡한 다단계 추론 작업을 효율적으로 처리할 수 있음을 증명했습니다.
훈련 전략의 정교화: 단순한 미세조정을 넘어, 능력 분리, 정렬, 협업을 단계별로 최적화하는 전략은 향후 복잡한 에이전트 시스템 설계에 중요한 시사점을 줍니다.
신뢰성 향상: Info-DPO 를 통해 중간 추론 단계의 질을 평가하고 오류를 억제함으로써, 에이전트의 신뢰성과 정확성을 크게 향상시켰습니다.

결론적으로 CoME 는 모바일 환경에서의 자율 에이전트 성능을 획기적으로 개선하며, 향후 다양한 에이전트 작업에 적용 가능한 강력한 프레임워크를 제공합니다.