Each language version is independently generated for its own context, not a direct translation.
이 논문은 **"LLandMark"**라는 이름의 새로운 비디오 검색 시스템을 소개합니다. 이 시스템은 방대한 양의 영상 데이터 속에서 사용자가 원하는 장면을 찾아주는 '스마트한 영상 탐정' 같은 역할을 합니다.
일반적인 검색 엔진이 단순히 "키워드"만 보고 영상을 찾는다면, LLandMark 는 영상의 내용, 배경, 그리고 그 안에 숨겨진 문화적 맥락까지 이해하여 정확한 답을 찾아냅니다.
이 복잡한 시스템을 이해하기 쉽게 4 가지 핵심 비유로 설명해 드리겠습니다.
1. 팀워크가 중요한 '수사팀' (멀티 에이전트 프레임워크)
이 시스템은 혼자서 모든 일을 하는 외로운 탐정이 아니라, 각자 전문 분야를 가진 4 명의 수사관으로 구성된 팀입니다.
- 수사 계획관 (Query Parsing Agent): 사용자의 질문을 듣고 "이건 무슨 뜻이지? 어떤 단서를 찾아야 할까?"라고 계획을 세웁니다.
- 지식 탐정 (Landmark Knowledge Agent): 베트남의 유명한 랜드마크 (예: 하노이의 성 요셉 대성당) 가 나오면, 단순히 이름만 기억하는 게 아니라 "회색 돌로 된 고딕 양식, 두 개의 첨탑이 있는 건물"처럼 시각적으로 묘사할 수 있는 언어로 변환해 줍니다.
- 검색 요원 (Parallel Search Agents): 계획에 따라 동시에 여러 길을 검색합니다. (영상 속 대본, 화면에 뜬 글자, 사물 인식 등)
- 최종 보고서 작성자 (Reranking Agent): 각 요원이 가져온 단서들을 모아 가장 확실한 증거를 골라 사용자에게 설명해 줍니다.
2. '악어'를 '코끼리'로 오해하지 않게 돕는 '번역가' (랜드마크 이해)
기존 시스템은 "하노이 성 요셉 대성당 앞"이라고 검색하면, 대성당이라는 이름만 찾아서 실패할 수 있습니다. (비유하자면, "코끼리"를 검색했는데 "악어"가 나오는 실수)
LLandMark 의 지식 탐정은 "아, 이 사용자는 '회색 돌로 된 두 개의 첨탑'을 찾는구나!"라고 깨닫습니다. 그리고 **CLIP(영상과 텍스트를 연결하는 AI)**에게 "첨탑이 있는 회색 돌 건물"이라고 다시 설명해 줍니다. 덕분에 이름이 아닌 모양과 분위기로 정확한 영상을 찾아냅니다.
3. 흐릿한 사진도 선명하게 만들어주는 '보정 전문가' (OCR 개선)
영상 속 자막이나 간판 글자를 읽는 기술 (OCR) 은 베트남어처럼 발음 부호 (성조) 가 많은 언어에서는 자주 실수를 합니다. "맛있는"을 "맛없다"로 잘못 읽거나, 글자를 뭉개버리는 경우가 많죠.
이 시스템은 **Gemini(대형 언어 모델)**라는 '보정 전문가'를 고용했습니다. 흐릿하게 읽힌 베트남어 텍스트를 AI 가 다시 한 번 검토하여 성조를 정확히 맞추고 오타를 고쳐줍니다. 마치 흐릿한 사진을 고화질로 복원하는 것처럼, 검색의 정확도를 높여줍니다.
4. 직접 사진을 보여줘서 찾는 '이미지 검색' (LLM 지원 이미지 검색)
사용자가 "베트남의 벤 탄 시장"을 찾으려는데, 텍스트만으로는 정확한 장소를 찾기 어려울 때가 있습니다.
이때 **LLM(대형 언어 모델)**이 나서서 **"베트남 벤 탄 시장의 실제 사진"**을 인터넷에서 자동으로 찾아옵니다. 그리고 그 실제 사진을 기준으로 검색 데이터베이스의 영상들과 비교합니다.
비유: "저기 저 붉은 지붕의 시장 같은 곳"이라고 말로 설명하는 대신, 실제 시장 사진을 보여주며 "이거랑 비슷한 영상 찾아줘!"라고 요청하는 것과 같습니다. 이렇게 하면 훨씬 더 정확하게 영상을 찾아냅니다.
🏆 실제 성과: 베트남의 '영상 검색 챔피언'
이 시스템은 2025 년 호치민시 AI 챌린지 (HCMAIC) 에서 680 개 이상의 팀 중 상위 56 위에 들며 뛰어난 성능을 입증했습니다.
- 뉴스, 다큐멘터리, 여행 영상 등 250GB(약 10 만 장 이상의 DVD) 에 달하는 방대한 영상 속에서 복잡한 질문 ("밤에 백당 부두에 불빛이 비치는 장면") 을 정확히 찾아냈습니다.
- 단순히 키워드만 매칭하는 것이 아니라, 시간 순서, 사물, 텍스트, 그리고 문화적 배경까지 종합적으로 판단했습니다.
💡 결론
LLandMark 는 **"영상을 단순히 보는 것을 넘어, 영상의 맥락과 문화까지 이해하는 똑똑한 검색 시스템"**입니다. 마치 베트남의 복잡한 거리에서 현지인과 함께 길을 찾아주는 친절한 가이드처럼, 사용자가 원하는 순간을 정확히 찾아내어 보여줍니다.