Each language version is independently generated for its own context, not a direct translation.
📱 문제: "모든 일을 혼자서 하려다 지친 AI"
지금까지의 스마트폰 AI 비서들은 보통 **한 명의 '만능 전문가'**처럼 행동했습니다. 화면을 보고, 계획을 세우고, 버튼을 누르고, 입력을 하는 모든 일을 한 뇌로 처리하려 했습니다.
하지만 문제는 이거예요.
- 화면 분석은 미술관 큐레이터가 필요하고,
- 계획 수립은 작전 참모가 필요하며,
- 버튼 누르기는 정교한 기계 조작사가 필요합니다.
이 모든 일을 한 사람이 다 하려고 하면, 어떤 일은 잘하고 어떤 일은 엉망이 되는 불균형이 생기고, 중간에 실수하면 그 실수가 다음 단계로 이어져 결국 실패하게 됩니다. (예: 화면을 잘못 해석하면 잘못된 버튼을 누르게 됨)
🚀 해결책: "전문가 팀을 꾸린 CoME"
저자들은 이 문제를 해결하기 위해 CoME라는 새로운 시스템을 제안했습니다. 이는 마치 한 명의 만능 장인 대신, 각자 특기를 가진 4 명의 전문가 팀을 구성한 것과 같습니다.
1. 4 명의 전문가 (Expert)
CoME 는 4 가지 단계마다 다른 전문가가 나옵니다.
- 👀 화면 요약 전문가: "지금 화면에 뭐가 떠있지?"라고 상황을 설명합니다.
- 📝 계획 전문가: "이제 무엇을 해야 할까?"라고 다음 단계를 짭니다.
- 🎯 결정 전문가: "어떤 버튼을 누를까?"라고 고릅니다.
- 🖱️ 실행 전문가: "정확히 어디를 클릭할까?"라고 좌표를 정합니다.
2. '출력 지향' 활성화 (Output-Oriented Activation)
기존의 AI 는 "무엇을 입력받았는가"에 따라 전문가를 골랐다면, CoME 는 **"지금 어떤 단계를 수행해야 하는가"**에 따라 전문가를 골라냅니다.
- 비유: 식당에 손님이 오면 (입력), 메뉴를 보고 요리사가 결정하는 게 아니라, **현재 주문 단계 (전채, 메인, 디저트)**에 따라 가장 적합한 요리사가 나옵니다.
- 화면을 볼 때는 '화면 전문가'가, 버튼을 누를 때는 '실행 전문가'가 나옵니다. 이렇게 하면 각 단계에서 가장 적합한 두뇌가 작동하여 실수가 줄어듭니다.
🎓 학습 방법: "단계별 훈련 (Progressive Training)"
이 팀이 바로 실전 투입될 수 있도록 3 단계로 훈련시켰습니다.
- 전문가 훈련 (Expert-FT): 각 전문가가 자신의 일만 집중해서 연습하게 합니다. (예: 화면 전문가만 화면 분석만 연습)
- 지휘관 훈련 (Router-FT): 언제 누구를 불러야 할지 지휘하는 '로터 (Router)'를 훈련시킵니다. "지금 계획 단계니까 계획 전문가를 불러라!"라고 정확히 지시합니다.
- 팀워크 훈련 (CoT-FT): 네 명이 함께 일하며 자연스럽게 협력하는 법을 배웁니다.
🛡️ 실수 방지: "정보의 가치로 실수를 걸러내다 (Info-DPO)"
중요한 것은 중간 과정의 실수입니다. 결론만 맞으면 되는데, 중간에 엉뚱한 생각을 하면 나중에 큰 실수가 됩니다.
저자들은 Info-DPO라는 기술을 썼습니다.
- 비유: 여행 계획을 세울 때, "공항 가는 길에 맛집을 들르는 건 좋은 아이디어인가?"를 평가합니다.
- 만약 중간 단계가 **최종 목표 (비행기 예약) 에 도움이 되는 정보 (정보 획득량, InfoGain)**를 준다면 점수를 주고, 방해가 되거나 헛된 정보를 준다면 점수를 깎습니다.
- 이렇게 중간 단계가 얼마나 유용한지를 평가해서, 엉뚱한 생각 (실수) 을 하는 경로를 막아줍니다.
🏆 결과: "더 빠르고, 더 정확하고, 더 가볍게"
실험 결과, CoME 는 기존 AI 들보다 훨씬 더 정확하게 스마트폰 작업을 수행했습니다.
- 정확도: 버튼 누르기, 입력하기 등 모든 작업에서 성적이 좋아졌습니다.
- 효율성: 전문가 팀을 구성했지만, 한 번에 모든 전문가를 다 쓰는 게 아니라 필요한 사람만 뽑아쓰기 때문에 컴퓨터 메모리 (GPU) 를 덜 먹으면서도 더 똑똑한 성능을 냈습니다.
💡 한 줄 요약
"모든 일을 혼자 하려다 지친 AI 에게, 각자 특기를 가진 전문가 팀을 꾸리고, 단계별로 가장 적합한 전문가를 불러내며, 중간에 헛된 생각을 걸러내는 시스템을 도입했더니 스마트폰 조작이 훨씬 똑똑해졌습니다!"