LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"LLandMark"**라는 이름의 새로운 비디오 검색 시스템을 소개합니다. 이 시스템은 방대한 양의 영상 데이터 속에서 사용자가 원하는 장면을 찾아주는 '스마트한 영상 탐정' 같은 역할을 합니다.

일반적인 검색 엔진이 단순히 "키워드"만 보고 영상을 찾는다면, LLandMark 는 영상의 내용, 배경, 그리고 그 안에 숨겨진 문화적 맥락까지 이해하여 정확한 답을 찾아냅니다.

이 복잡한 시스템을 이해하기 쉽게 4 가지 핵심 비유로 설명해 드리겠습니다.

1. 팀워크가 중요한 '수사팀' (멀티 에이전트 프레임워크)

이 시스템은 혼자서 모든 일을 하는 외로운 탐정이 아니라, 각자 전문 분야를 가진 4 명의 수사관으로 구성된 팀입니다.

수사 계획관 (Query Parsing Agent): 사용자의 질문을 듣고 "이건 무슨 뜻이지? 어떤 단서를 찾아야 할까?"라고 계획을 세웁니다.
지식 탐정 (Landmark Knowledge Agent): 베트남의 유명한 랜드마크 (예: 하노이의 성 요셉 대성당) 가 나오면, 단순히 이름만 기억하는 게 아니라 "회색 돌로 된 고딕 양식, 두 개의 첨탑이 있는 건물"처럼 시각적으로 묘사할 수 있는 언어로 변환해 줍니다.
검색 요원 (Parallel Search Agents): 계획에 따라 동시에 여러 길을 검색합니다. (영상 속 대본, 화면에 뜬 글자, 사물 인식 등)
최종 보고서 작성자 (Reranking Agent): 각 요원이 가져온 단서들을 모아 가장 확실한 증거를 골라 사용자에게 설명해 줍니다.

2. '악어'를 '코끼리'로 오해하지 않게 돕는 '번역가' (랜드마크 이해)

기존 시스템은 "하노이 성 요셉 대성당 앞"이라고 검색하면, 대성당이라는 이름만 찾아서 실패할 수 있습니다. (비유하자면, "코끼리"를 검색했는데 "악어"가 나오는 실수)

LLandMark 의 지식 탐정은 "아, 이 사용자는 '회색 돌로 된 두 개의 첨탑'을 찾는구나!"라고 깨닫습니다. 그리고 **CLIP(영상과 텍스트를 연결하는 AI)**에게 "첨탑이 있는 회색 돌 건물"이라고 다시 설명해 줍니다. 덕분에 이름이 아닌 모양과 분위기로 정확한 영상을 찾아냅니다.

3. 흐릿한 사진도 선명하게 만들어주는 '보정 전문가' (OCR 개선)

영상 속 자막이나 간판 글자를 읽는 기술 (OCR) 은 베트남어처럼 발음 부호 (성조) 가 많은 언어에서는 자주 실수를 합니다. "맛있는"을 "맛없다"로 잘못 읽거나, 글자를 뭉개버리는 경우가 많죠.

이 시스템은 **Gemini(대형 언어 모델)**라는 '보정 전문가'를 고용했습니다. 흐릿하게 읽힌 베트남어 텍스트를 AI 가 다시 한 번 검토하여 성조를 정확히 맞추고 오타를 고쳐줍니다. 마치 흐릿한 사진을 고화질로 복원하는 것처럼, 검색의 정확도를 높여줍니다.

4. 직접 사진을 보여줘서 찾는 '이미지 검색' (LLM 지원 이미지 검색)

사용자가 "베트남의 벤 탄 시장"을 찾으려는데, 텍스트만으로는 정확한 장소를 찾기 어려울 때가 있습니다.

이때 **LLM(대형 언어 모델)**이 나서서 **"베트남 벤 탄 시장의 실제 사진"**을 인터넷에서 자동으로 찾아옵니다. 그리고 그 실제 사진을 기준으로 검색 데이터베이스의 영상들과 비교합니다.

비유: "저기 저 붉은 지붕의 시장 같은 곳"이라고 말로 설명하는 대신, 실제 시장 사진을 보여주며 "이거랑 비슷한 영상 찾아줘!"라고 요청하는 것과 같습니다. 이렇게 하면 훨씬 더 정확하게 영상을 찾아냅니다.

🏆 실제 성과: 베트남의 '영상 검색 챔피언'

이 시스템은 2025 년 호치민시 AI 챌린지 (HCMAIC) 에서 680 개 이상의 팀 중 상위 56 위에 들며 뛰어난 성능을 입증했습니다.

뉴스, 다큐멘터리, 여행 영상 등 250GB(약 10 만 장 이상의 DVD) 에 달하는 방대한 영상 속에서 복잡한 질문 ("밤에 백당 부두에 불빛이 비치는 장면") 을 정확히 찾아냈습니다.
단순히 키워드만 매칭하는 것이 아니라, 시간 순서, 사물, 텍스트, 그리고 문화적 배경까지 종합적으로 판단했습니다.

💡 결론

LLandMark 는 **"영상을 단순히 보는 것을 넘어, 영상의 맥락과 문화까지 이해하는 똑똑한 검색 시스템"**입니다. 마치 베트남의 복잡한 거리에서 현지인과 함께 길을 찾아주는 친절한 가이드처럼, 사용자가 원하는 순간을 정확히 찾아내어 보여줍니다.

Each language version is independently generated for its own context, not a direct translation.

LLandMark: 랜드마크 인식 다중 모달 인터랙티브 비디오 검색을 위한 멀티에이전트 프레임워크

1. 문제 정의 (Problem)

대규모 이질적인 비디오 데이터에서 증거를 검색하는 작업은 다음과 같은 주요 도전 과제에 직면해 있습니다:

다국어 및 문화적 맥락의 부재: 기존의 검색 시스템은 베트남어와 같은 특정 지역의 문화적 랜드마크 (예: "하노이 성 요셉 대성당 앞", "거북탑 근처") 에 대한 공간적, 문화적 맥락을 이해하지 못합니다.
노이즈가 많은 텍스트 추출: 비디오 내의 자막이나 화면 텍스트 (OCR) 를 추출할 때, 특히 베트남어의 성조 (diacritics) 가 누락되거나 왜곡되는 경우가 많아 검색 정확도가 떨어집니다.
복잡한 쿼리 처리: 단순한 키워드 검색을 넘어, 시간적 추론 (Temporal Reasoning) 이나 시각적 증거 기반의 복잡한 자연어 질문 (Visual QA) 을 처리하는 데 한계가 있습니다.
기존 시스템의 비효율성: 기존 에이전트 기반 시스템은 계획 수립이나 랜드마크 재형성에 유연성이 부족하며, OCR 파이프라인은 계산 비용이 과도하게 높습니다.

2. 방법론 (Methodology)

LLandMark 는 적응형, 설명 가능하며 문화적으로 기반을 둔 비디오 검색을 위해 설계된 모듈형 멀티에이전트 프레임워크입니다. 주요 구성 요소는 다음과 같습니다.

A. 핵심 아키텍처 (4 단계 멀티에이전트 협업)

쿼리 파싱 및 플래닝 에이전트 (Query Parsing and Planning Agent):
- 사용자 쿼리 (베트남어/영어) 의 의도를 분석하여 구조화된 SearchPlan 을 생성합니다.
- 의미론적 검색 (CLIP), 음성 인식 (ASR), 텍스트 인식 (OCR), 객체 탐지 등 다양한 모달리티에 대한 검색 단계를 가중치와 함께 계획합니다.
- 랜드마크 엔티티를 감지하여 다음 단계에서 특수 처리를 요청합니다.
랜드마크 지식 강화 에이전트 (Landmark Knowledge Agent):
- 랜드마크가 감지되면, 단순한 이름 대신 시각적, 건축적 속성이 포함된 상세한 설명 프롬프트로 변환합니다.
- 예시: "성 요셉 대성당" $\rightarrow$ "쌍둥이 정사각형 종탑, 어두운 회색 돌, 고딕 양식, 네오고딕 파사드".
- 이는 CLIP 의 시각적 임베딩 공간에서 의미적 간극을 해소하여 외관 기반 검색을 가능하게 합니다.
병렬 다중 모달 검색 (Parallel Multimodal Search):
- 시맨틱 검색: Milvus 데이터베이스에서 CLIP 임베딩을 기반으로 시각적으로 유사한 키프레임을 검색합니다.
- ASR/OCR 검색: Elasticsearch 에서 베트남어 키워드로 음성 및 화면 텍스트를 매칭합니다.
- 객체 필터링: YOLOv9-e 모델을 통해 COCO 기반 객체 탐지 결과를 AND/OR 로직으로 필터링합니다.
재랭킹 및 답변 생성 에이전트 (Reranking and Answer Agent):
- 각 모달리티의 점수를 가중 평균하여 통합 점수를 산출합니다.
- 상위 랭킹된 프레임과 맥락 증거 (이미지, 텍스트, 객체) 를 멀티모달 LLM 에 입력하여 구체적인 비디오 프레임을 참조하는 자연어 답변을 생성합니다.

B. 주요 기술적 혁신 모듈

Gemini 기반 OCR 정제 모듈:
- PaddleOCR 로 추출된 초기 텍스트에 성조 (diacritics) 오류가 많으므로, Gemini 2.5 Flash와 LlamaIndex를 결합하여 후처리 파이프라인을 구축했습니다.
- 이 모듈은 베트남어 성조를 복원하고 오타를 수정하여 검색 품질을 획기적으로 향상시킵니다.
LLM 지원 이미지 - 이미지 검색 파이프라인:
- 텍스트 기반 검색의 한계를 극복하기 위해 자동화된 이미지 검색 파이프라인을 도입했습니다.
- 워크플로우: 랜드마크 감지 $\rightarrow$ 웹 이미지 검색 (Google Custom Search API) $\rightarrow$ 대표 이미지 획득 $\rightarrow$ CLIP 기반 시각적 유사도 매칭.
- 사용자가 직접 이미지를 업로드할 필요 없이, LLM 이 랜드마크를 식별하고 참조 이미지를 자동으로 생성하여 검색 정확도를 높입니다.

C. 데이터 전처리 및 인덱싱

TransNetV2: 비디오를 샷 (shot) 단위로 분할하여 불필요한 프레임 처리를 줄이고, 샷 내에서 3 개의 대표 키프레임 (백분위수 기반) 만 추출합니다.
하이브리드 인덱싱:
- Milvus: CLIP 임베딩 (시각적 유사성).
- Elasticsearch: ASR(WhisperX) 및 정제된 OCR 텍스트.
- MongoDB: 메타데이터 및 키프레임 인덱스 통합.
- JSON: YOLOv9-e 객체 탐지 결과 (지연 로딩 방식).

3. 주요 기여 (Key Contributions)

LLandMark 아키텍처: 쿼리 계획 수립, 랜드마크 추론, 다중 모달 재랭킹을 수행하는 모듈형 멀티에이전트 시스템 개발.
Gemini 정제 OCR: PaddleOCR 과 Gemini 2.5 Flash 를 결합하여 베트남어 텍스트 품질을 개선하는 하이브리드 교정 파이프라인 제안.
자동화된 랜드마크 이미지 - 이미지 검색: LLM 이 랜드마크를 감지하고 웹 이미지를 검색하여 CLIP 기반 매칭을 수행하는 완전 자동화 파이프라인 구현.

4. 실험 결과 (Experimental Results)

평가 환경: HCMAIC 2025 (Ho Chi Minh City AI Challenge) 의 공식 데이터셋 (250GB 방송/다큐멘터리 비디오) 을 사용했습니다.
평가 지표: Top-k R-Score (k=1, 5, 20, 50, 100) 의 평균.
성적:
- 총점 77.40 점 (최대 88 점) 획득.
- 680 개 이상의 등록 팀 중 상위 56 위 이내로 선정되어 본선 진출.
- 텍스트 기반 검색 (KIS), 시각적 질문 답변 (QA), 시간적 추론 (TRAKE) 모든 태스크에서 일관된 높은 성능을 보였습니다.
정성적 결과:
- 랜드마크가 포함된 복잡한 쿼리 (예: "밤의 백당 부두", "벤 탄 시장") 에서 기존 CLIP 기반 검색은 실패하거나 잘못된 결과를 반환했으나, LLandMark 는 랜드마크 재형성 및 이미지 - 이미지 검색을 통해 정확한 비디오 세그먼트를 찾아냈습니다.

5. 의의 및 결론 (Significance)

LLandMark 는 대규모 비디오 검색 분야에서 다음과 같은 의의를 가집니다:

문화적 맥락의 통합: 베트남어와 같은 특정 지역의 랜드마크와 문화적 맥락을 이해하는 최초의 체계적인 프레임워크 중 하나로, 지역화된 검색 성능을 입증했습니다.
설명 가능성 (Explainability): 멀티에이전트 구조를 통해 쿼리 해석, 계획 수립, 검색 과정, 최종 답변 생성의 전 단계를 투명하게 시각화하여 사용자에게 신뢰할 수 있는 결과를 제공합니다.
효율성과 정확성의 균형: 무거운 OCR 파이프라인을 대체하는 LLM 기반 정제 모듈과 자동화된 이미지 검색을 통해 계산 비용을 줄이면서도 검색 정확도를 극대화했습니다.

이 연구는 비전, 언어, 추론을 통합하여 인간 중심의 비디오 검색 시스템을 구축하는 데 중요한 기반을 마련했습니다.

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

1. 팀워크가 중요한 '수사팀' (멀티 에이전트 프레임워크)

2. '악어'를 '코끼리'로 오해하지 않게 돕는 '번역가' (랜드마크 이해)

3. 흐릿한 사진도 선명하게 만들어주는 '보정 전문가' (OCR 개선)

4. 직접 사진을 보여줘서 찾는 '이미지 검색' (LLM 지원 이미지 검색)

🏆 실제 성과: 베트남의 '영상 검색 챔피언'

💡 결론

LLandMark: 랜드마크 인식 다중 모달 인터랙티브 비디오 검색을 위한 멀티에이전트 프레임워크

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Experimental Results)

5. 의의 및 결론 (Significance)

유사한 논문

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization