LE-NeuS: Latency-Efficient Neuro-Symbolic Video Understanding via Adaptive Temporal Verification

본 논문은 긴 형식의 비디오 질문 응답 작업에서 기존 신경 심볼릭 접근법의 높은 지연 시간 문제를 해결하기 위해, CLIP 기반의 적응형 샘플링과 배치화된 명제 감지를 도입하여 지연 시간을 획기적으로 줄이면서도 정확도는 유지하는 LE-NeuS 프레임워크를 제안합니다.

Shawn Liang, Sahil Shah, Chengwei Zhou, SP Sharan, Harsh Goel, Arnab Sanyal, Sandeep Chinchali, Gourav Datta

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"긴 영상을 보고 질문에 답할 때, AI 가 너무 느려서 실용적이지 못했던 문제를 해결한 새로운 방법"**을 소개합니다.

비유하자면, 이 연구는 **"AI 가 영화를 볼 때, 모든 장면을 하나하나 꼼꼼히 읽느라 답을 내는 데 16 분이나 걸리던 것을, 핵심 장면만 골라 40 초 만에 정확히 답하게 만든 기술"**입니다.

이제 쉽게 풀어서 설명해 드릴게요.

1. 문제: "AI 가 영화를 볼 때 너무 꼼꼼해서 지친다"

기존의 최신 AI(비전 - 언어 모델) 는 긴 영상을 볼 때, 모든 장면을 다 똑같은 간격으로 쭉 훑어봅니다.

  • 비유: 2 시간짜리 영화를 볼 때, 주인공이 등장하는 중요한 장면뿐만 아니라, 배경에 있는 구름이 움직이는 장면, 벽에 걸린 그림이 흔들리는 장면까지 모든 1 초 단위를 다 꼼꼼히 분석해야 답을 낼 수 있다고 가정해 보세요.
  • 결과: AI 는 이 엄청난 작업을 하느라 90 배나 더 느려집니다. (예: 보통 5 초 걸릴 일을 16 분이나 걸림). 그래서 실시간으로 필요한 곳 (예: 자율주행차나 스마트폰) 에 쓰기엔 너무 느립니다.

2. 해결책: "LE-NeuS(엘 - 뉴스)"라는 새로운 방법

연구팀이 만든 LE-NeuS는 이 문제를 두 가지 똑똑한 전략으로 해결했습니다.

전략 1: "핵심 장면만 골라보는 '스마트 필터링'" (적응형 샘플링)

AI 가 모든 장면을 다 볼 필요는 없습니다. 영상에는 비슷한 장면들이 반복되거나, 질문과 상관없는 배경만 있는 경우가 많죠.

  • 비유: 영화를 볼 때, 주인공이 나무를 자르는 장면이나 도구를 만드는 장면처럼 질문과 관련된 '핵심 장면'만 **CLIP(이미지 이해 AI)**이 미리 찾아냅니다.
  • 효과: 나머지 90% 이상의 쓸데없는 장면들은 아예 건너뛰고, 중요한 장면만 골라 분석합니다. 마치 책 전체를 다 읽지 않고, 목차와 중요한 문장만 찾아 읽는 것과 같습니다.

전략 2: "한 번에 여러 질문을 던지는 '대량 처리'" (배치화된 검증)

기존 방식은 한 장면을 보고 "이게 나무를 자르는 장면이야?"라고 물어보고, 다음 장면을 보고 "이게 나무를 자르는 장면이야?"라고 다시 물어보는 식으로 하나씩 순서대로 처리했습니다.

  • 비유: 식당에서 손님이 10 명 왔는데, 요리사가 한 명씩 주문을 받아서 하나씩 요리를 만드는 상황입니다.
  • LE-NeuS 의 방식: 요리사가 한 번에 10 명의 주문을 받아서 동시에 요리를 시작합니다. GPU(컴퓨터의 두뇌) 라는 거대한 주방을 꽉 채워서 한 번에 여러 장면을 동시에 분석하게 합니다.
  • 효과: 처리 속도가 비약적으로 빨라집니다.

3. 결과: "빠르면서도 똑똑해짐"

이 방법을 적용한 결과, 놀라운 변화가 일어났습니다.

  • 속도: 답을 내는 시간이 90 배 느리던 것에서 10 배 정도 느린 수준으로 줄었습니다. (약 16 분 → 40 초).
  • 정확도: 오히려 정확도가 10% 이상 향상되었습니다.
    • 이유: AI 가 쓸데없는 배경 장면 (구름, 벽 등) 에 에너지를 낭비하지 않고, 진짜 중요한 증거 (나무 자르는 장면 등) 에 집중했기 때문입니다.

4. 요약: 왜 이것이 중요한가요?

이 기술은 **"AI 가 긴 영상을 볼 때, 논리적으로 사고하는 능력 (신경 - 심볼릭 방식) 을 유지하면서도, 속도를 획기적으로 높였다"**는 점에서 의의가 큽니다.

  • 과거: "정확하지만 너무 느려서 쓸 수 없음" (90 배 느림)
  • 현재 (LE-NeuS): "정확하고, 충분히 빨라서 실생활에 쓸 수 있음" (10 배 느림)

이 기술이 발전하면, 자율주행차가 긴 도로 영상을 실시간으로 분석하거나, 의료 영상에서 이상 징후를 빠르게 찾아내거나, 보안 카메라에서 사고를 즉시 감지하는 등, 우리 일상에서 AI 가 더 빠르고 똑똑하게 일할 수 있는 길이 열렸습니다.