MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

이 논문은 검색 집중형 멀티모달 QA 데이터 부족, 효과적인 검색 궤적 부재, 온라인 API 비용 문제라는 세 가지 과제를 해결하기 위해 하이퍼그래프 기반 데이터 생성, 도구별 전문가 최적화 및 트리 탐색을 통한 궤적 재구성, 오프라인 검색 엔진 구축이라는 세 가지 전략을 통해 강력한 멀티모달 심층 연구 에이전트 'MM-DeepResearch'를 제안합니다.

Huanjin Yao, Qixiang Yin, Min Yang, Ziwang Zhao, Yibo Wang, Haotian Luo, Jingyi Zhang, Jiaxing Huang

게시일 2026-03-03
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

MM-DeepResearch: 그림과 글을 함께 찾아주는 '탐구형 AI'의 비밀

이 논문은 **"MM-DeepResearch"**라는 새로운 인공지능(AI)에 대해 소개합니다. 이 AI는 단순히 질문에 답하는 것을 넘어, 마치 현실 세계의 탐정처럼 스스로 정보를 찾고, 여러 도구를 쓰며, 그림과 글을 연결해서 복잡한 문제를 해결합니다.

이 기술이 왜 중요하고, 어떻게 만들어졌는지 쉬운 비유로 설명해 드리겠습니다.


1. 왜 이런 AI가 필요할까요? (기존의 문제점)

기존의 AI는 마치 **"책상 위에 쌓인 두꺼운 사전만 가진 학생"**과 같습니다.

  • 한계: 사전에 없는 최신 뉴스나, 인터넷에 떠도는 복잡한 정보를 모르면 답을 못 합니다.
  • 문제: 만약 이 학생이 답을 찾으러 도서관 (인터넷) 에 간다면, 보통은 "검색창에 한 번 입력하고 나온 첫 번째 글만 읽는" 방식입니다. 하지만 진짜 어려운 문제는 여러 번 검색하고, 그림을 보고, 글을 읽고, 다시 검색하는 복잡한 과정이 필요합니다.

또한, 이런 AI를 가르치기 위해선 엄청난 비용이 듭니다. 매번 인터넷 검색을 시키려면 돈이 많이 들고, 가르칠 만한 '좋은 예제'도 부족했습니다.

2. MM-DeepResearch 의 3 가지 핵심 비법

이 논문은 이 세 가지 문제를 해결하기 위해 세 가지 마법 같은 도구를 개발했습니다.

① '초연결 지도' (Hyper-Search): 질문을 만드는 공장

  • 비유: imagine (상상해 보세요) 우리가 거미줄처럼 연결된 지도를 만든다고 칩시다.
    • 한 장의 '사진'을 찍으면, 그 사진과 관련된 '웹페이지', '다른 사진', '관련 뉴스'가 자동으로 연결됩니다.
    • 이 거미줄 (하이퍼그래프) 을 이용하면, **"이 사진 속 건물의 건축가는 누구이며, 그가 만든 다른 작품은 무엇인가?"**처럼, 그림만 보고는 답할 수 없고 여러 정보를 찾아봐야 하는 진짜 어려운 질문들을 자동으로 만들어냅니다.
  • 효과: AI 가 훈련할 수 있는 '고난도 문제'가 갑자기 폭증했습니다.

② '전문가 팀' (DR-TTS): 각자 달인인 팀원들

  • 비유: 복잡한 미로를 헤쳐 나가는 데, 한 사람이 모든 것을 다 하려고 하면 실수하기 쉽습니다. 대신 전문가 팀을 꾸려봅시다.
    • 팀원 A: 그림으로 그림을 찾는 데 특화된 '이미지 검색 전문가'.
    • 팀원 B: 글로 글을 찾는 데 특화된 '텍스트 검색 전문가'.
    • 팀원 C: 어려운 지식을 물어보는 '지식 전문가'.
  • 작동 방식: 먼저 각 전문가가 자기 일만 완벽하게 하도록 훈련시킵니다. 그다음, 이 전문가들을 한 팀으로 묶어 나무 가지처럼 여러 갈래로 나누어(트리 서치) 가장 좋은 답을 찾아내는 경로를 함께 설계합니다.
  • 효과: AI 가 어떤 도구를 쓸지 헷갈리지 않고, 정확한 순서로 정보를 찾아낼 수 있게 됩니다.

③ '가상 도서관' (오프라인 검색 엔진): 돈 안 들게 연습하기

  • 비유: 실전 (인터넷) 에서 연습하면 비용이 너무 많이 듭니다. 그래서 **실제 도서관 자료로 만든 '가상 도서관'**을 지었습니다.
    • 이 도서관에는 미리 준비해 둔 웹페이지와 이미지들이 저장되어 있습니다.
    • AI 는 이 가상 도서관에서 검색 연습을 하며, 실전 (인터넷) 을 나가기 전에 수천 번의 실수를 해보며 배웁니다.
  • 효과: 인터넷 검색 API 비용 (수천 달러) 을 아끼면서도, AI 가 검색하는 법을 완벽하게 익히게 됩니다.

3. 이 AI 는 어떻게 작동할까요? (실전 사례)

이제 이 AI 가 실제 문제를 풀 때 어떤지 보겠습니다.

  • 상황: 사용자가 "이 사진 속 건물의 건축가는 누구야?"라고 물으며 사진을 보여줍니다.
  • 1 단계 (생각): AI 는 "이건 성 같은데, 이름이 뭘까?"라고 생각합니다.
  • 2 단계 (도구 사용 - 이미지 검색): AI 는 "이미지 검색 도구"를 켜고, 사진과 비슷한 다른 사진들을 찾아 건물의 이름을 알아냅니다. ("저건 '즈바라시 성'이구나!")
  • 3 단계 (생각 & 도구 사용 - 텍스트 검색): "즈바라시 성의 건축가는 누구지?"라고 생각하며, 이제 "텍스트 검색 도구"를 켭니다.
  • 4 단계 (종합): 여러 문서에서 "건축가는 빈첸초 스카모치"라는 정보를 찾아냅니다.
  • 5 단계 (답변): "건축가는 빈첸초 스카모치입니다"라고 정확한 답을 내놓습니다.

4. 결론: 왜 이것이 중요한가요?

이 연구는 **"AI 가 스스로 생각하고, 도구를 쓰며, 그림과 글을 연결해서 복잡한 문제를 해결하는 능력"**을 크게 향상시켰습니다.

  • 비용 절감: 비싼 인터넷 검색 없이도 훌륭한 AI 를 만들 수 있게 되었습니다.
  • 성능 향상: 기존 AI 들보다 훨씬 정확한 답을 내고, 더 복잡한 문제를 해결합니다.
  • 미래: 앞으로 이 기술은 의료 진단, 법률 조사, 복잡한 여행 계획 등 사람이 직접 찾아봐야 하는 모든 분야에서 AI 가 진짜 '비서'나 '연구원'처럼 일할 수 있는 기반을 마련해 줍니다.

요약하자면, MM-DeepResearch 는 돈도 아끼고, 실력도 키워주는 '스마트한 탐정 AI'를 만드는 새로운 표준이 된 것입니다.