LE-NeuS: Latency-Efficient Neuro-Symbolic Video Understanding via Adaptive Temporal Verification

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"긴 영상을 보고 질문에 답할 때, AI 가 너무 느려서 실용적이지 못했던 문제를 해결한 새로운 방법"**을 소개합니다.

비유하자면, 이 연구는 **"AI 가 영화를 볼 때, 모든 장면을 하나하나 꼼꼼히 읽느라 답을 내는 데 16 분이나 걸리던 것을, 핵심 장면만 골라 40 초 만에 정확히 답하게 만든 기술"**입니다.

이제 쉽게 풀어서 설명해 드릴게요.

1. 문제: "AI 가 영화를 볼 때 너무 꼼꼼해서 지친다"

기존의 최신 AI(비전 - 언어 모델) 는 긴 영상을 볼 때, 모든 장면을 다 똑같은 간격으로 쭉 훑어봅니다.

비유: 2 시간짜리 영화를 볼 때, 주인공이 등장하는 중요한 장면뿐만 아니라, 배경에 있는 구름이 움직이는 장면, 벽에 걸린 그림이 흔들리는 장면까지 모든 1 초 단위를 다 꼼꼼히 분석해야 답을 낼 수 있다고 가정해 보세요.
결과: AI 는 이 엄청난 작업을 하느라 90 배나 더 느려집니다. (예: 보통 5 초 걸릴 일을 16 분이나 걸림). 그래서 실시간으로 필요한 곳 (예: 자율주행차나 스마트폰) 에 쓰기엔 너무 느립니다.

2. 해결책: "LE-NeuS(엘 - 뉴스)"라는 새로운 방법

연구팀이 만든 LE-NeuS는 이 문제를 두 가지 똑똑한 전략으로 해결했습니다.

전략 1: "핵심 장면만 골라보는 '스마트 필터링'" (적응형 샘플링)

AI 가 모든 장면을 다 볼 필요는 없습니다. 영상에는 비슷한 장면들이 반복되거나, 질문과 상관없는 배경만 있는 경우가 많죠.

비유: 영화를 볼 때, 주인공이 나무를 자르는 장면이나 도구를 만드는 장면처럼 질문과 관련된 '핵심 장면'만 **CLIP(이미지 이해 AI)**이 미리 찾아냅니다.
효과: 나머지 90% 이상의 쓸데없는 장면들은 아예 건너뛰고, 중요한 장면만 골라 분석합니다. 마치 책 전체를 다 읽지 않고, 목차와 중요한 문장만 찾아 읽는 것과 같습니다.

전략 2: "한 번에 여러 질문을 던지는 '대량 처리'" (배치화된 검증)

기존 방식은 한 장면을 보고 "이게 나무를 자르는 장면이야?"라고 물어보고, 다음 장면을 보고 "이게 나무를 자르는 장면이야?"라고 다시 물어보는 식으로 하나씩 순서대로 처리했습니다.

비유: 식당에서 손님이 10 명 왔는데, 요리사가 한 명씩 주문을 받아서 하나씩 요리를 만드는 상황입니다.
LE-NeuS 의 방식: 요리사가 한 번에 10 명의 주문을 받아서 동시에 요리를 시작합니다. GPU(컴퓨터의 두뇌) 라는 거대한 주방을 꽉 채워서 한 번에 여러 장면을 동시에 분석하게 합니다.
효과: 처리 속도가 비약적으로 빨라집니다.

3. 결과: "빠르면서도 똑똑해짐"

이 방법을 적용한 결과, 놀라운 변화가 일어났습니다.

속도: 답을 내는 시간이 90 배 느리던 것에서 10 배 정도 느린 수준으로 줄었습니다. (약 16 분 → 40 초).
정확도: 오히려 정확도가 10% 이상 향상되었습니다.
- 이유: AI 가 쓸데없는 배경 장면 (구름, 벽 등) 에 에너지를 낭비하지 않고, 진짜 중요한 증거 (나무 자르는 장면 등) 에 집중했기 때문입니다.

4. 요약: 왜 이것이 중요한가요?

이 기술은 **"AI 가 긴 영상을 볼 때, 논리적으로 사고하는 능력 (신경 - 심볼릭 방식) 을 유지하면서도, 속도를 획기적으로 높였다"**는 점에서 의의가 큽니다.

과거: "정확하지만 너무 느려서 쓸 수 없음" (90 배 느림)
현재 (LE-NeuS): "정확하고, 충분히 빨라서 실생활에 쓸 수 있음" (10 배 느림)

이 기술이 발전하면, 자율주행차가 긴 도로 영상을 실시간으로 분석하거나, 의료 영상에서 이상 징후를 빠르게 찾아내거나, 보안 카메라에서 사고를 즉시 감지하는 등, 우리 일상에서 AI 가 더 빠르고 똑똑하게 일할 수 있는 길이 열렸습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

배경: 장편 비디오 질문 답변 (LVQA, Long-Form Video Question Answering) 은 시맨틱 이해, 장기적인 시간적 추론, 그리고 복합적인 추론 능력을 통합해야 하는 복잡한 과제입니다.
기존 방법의 한계:
- 기초 VLM (Vision-Language Models): 고정된 컨텍스트 윈도우로 인해 프레임 샘플링이 과도하게 이루어지거나 중요한 시간적 전환점이 누락되어 장기적 추론에 취약합니다.
- 기존 신경-심볼릭 접근법 (NeuS-QA): 자연어 쿼리를 시간 논리 (Temporal Logic, TL) 명세로 변환하고 형식적 모델 체킹 (Formal Model Checking) 을 수행하여 논리적으로 일관된 비디오 세그먼트를 찾습니다. 이는 정확도가 높지만, 지연 시간 (Latency) 이 매우 큽니다.
핵심 병목 현상: NeuS-QA 와 같은 기존 신경-심볼릭 파이프라인은 비디오 프레임 전체에 대해 순차적이고 밀집된 (dense) 명제 (proposition) 탐지를 수행하여 오토마타 (Automaton) 를 구축합니다. 이로 인해 기본 VLM 프롬프팅보다 최대 90 배까지 느린 지연 시간을 발생시켜, 지연에 민감한 엣지 배포나 실시간 응용에 실용적이지 않습니다.

2. 제안 방법 (Methodology: LE-NeuS)

저자들은 LE-NeuS (Latency-Efficient Neuro-Symbolic) 프레임워크를 제안하여, 시간 논리 기반 추론의 정확도 이점을 유지하면서 추론 지연 시간을 획기적으로 줄이는 것을 목표로 합니다. 주요 기술적 요소는 다음과 같습니다.

가. CLIP 기반 2 단계 적응형 샘플링 (CLIP-Guided Two-Stage Adaptive Sampling)

비디오의 시각적 중복성을 활용하여 불필요한 프레임 처리를 제거합니다.

1 단계: 시맨틱 관련성 필터링 (Semantic Relevance Filtering):
- CLIP(ViT-B/32) 의 이미지 및 텍스트 인코더를 사용하여 프레임을 공통 잠재 공간에 매핑합니다.
- 쿼리에서 추출된 원자 명제 (Atomic Propositions) 와 프레임 간의 유사도 점수를 계산합니다.
- 임계값 ( $\tau_s$ ) 을 초과하는 프레임만 선택하고, 이를 시간적으로 확장하여 후보 세그먼트를 생성합니다. 이는 배경과 같은 불필요한 콘텐츠를 제거합니다.
2 단계: 시각적 중복성 제거 (Visual Redundancy Elimination):
- 후보 세그먼트 내에서 연속된 프레임 간의 시각적 유사도를 계산합니다.
- 시각적으로 유사한 프레임 (중복) 은 제거하고, 정보량이 풍부한 **키 프레임 (Keyframes)**만 선별합니다.
- 선택된 키 프레임과 그 주변 프레임에 대해서만 VLM 추론을 수행하며, 제거된 프레임은 이전 키 프레임의 라벨을 전파 (Propagate) 합니다.

나. 배치된 명제 탐지 (Batched Proposition Detection)

기존의 순차적 VLM 호출 방식을 병렬화하여 GPU 처리량을 극대화합니다.

문제: 기존 방법은 각 윈도우와 명제 쌍을 개별적으로 VLM 에 입력하여 커널 실행 오버헤드가 반복되었습니다.
해결: 동일한 시각적 컨텍스트 (프레임 윈도우) 에 대해 여러 개의 명제를 한 번에 배치 (Batch) 로 구성하여 **단일 프론트워스 (Forward Pass)**로 처리합니다.
효과: 시각 인코더의 연산을 공유하고, GPU 의 병렬 처리 능력을 활용하여 추론 속도를 획기적으로 향상시킵니다.

다. 다중 세그먼트 관심 영역 (FoI) 검색 전략 (Multi-Segment FoI Retrieval)

기존 NeuS-QA 가 단일 가장 긴 연속 세그먼트만 반환하는 것과 달리, LE-NeuS 는 시간 논리 명제가 만족되는 모든 불연속적인 세그먼트를 반환합니다.
이를 통해 VLM 이 최종 답변 생성 시, 전체 비디오의 연속적인 구간이 아닌 **고밀도 증거 (High-density Evidence)**가 집중된 섹션에만 주의를 기울이도록 하여 정확도를 높입니다.

3. 주요 기여 (Key Contributions)

지연 효율적 신경-심볼릭 프레임워크: 장편 비디오 이해에서 발생하는 높은 지연 시간 문제를 해결하기 위해, 적응형 샘플링과 배치 추론을 결합한 LE-NeuS 를 최초로 제안했습니다.
이론적 지연 시간 분석: 비디오 길이, 명제 복잡도, 샘플링 밀도에 따른 지연 시간 상한선을 수학적으로 유도했습니다. 이를 통해 신경-심볼릭 시스템이 대규모로 효율적으로 작동할 수 있는 조건을 규명했습니다.
성능 균형 달성: 지연 시간을 획기적으로 줄이면서도 (기존 대비 90 배 $\to$ 10 배 수준), 복잡한 시간적 쿼리에 대한 정확도는 10% 이상 향상시켰습니다.
실용적 배포 가능성: NVIDIA H100 GPU 환경에서 장편 비디오 (최대 1 시간) 에 대한 실시간에 가까운 처리 (약 42 초) 를 가능하게 하여, 엣지 및 실시간 애플리케이션에의 적용 가능성을 입증했습니다.

4. 실험 결과 (Results)

데이터셋: LongVideoBench, Video-MME, MLVU.
하드웨어: NVIDIA H100 GPU.
정확도 (Accuracy):
- LongVideoBench: LE-NeuS 는 InternVL2.5-8B 백본을 사용하여 **67.10%**의 정확도를 기록했습니다. 이는 기존 NeuS-QA(61.89%) 보다 5.21%p 높으며, 다른 구조적 추론 프레임워크 (VideoTree 등) 보다 16%p 이상 우위를 점했습니다.
- Video-MME (시간적 추론): 67.24% 정확도로 NeuS-QA 대비 12.07%p 향상.
- MLVU: Needle QA 및 Ego Reasoning 하위 집합에서 모든 백본에서 최상위 성능을 보였습니다.
지연 시간 (Latency) 및 효율성:
- 속도 향상: 1 시간 길이의 비디오 처리 시, NeuS-QA 는 약 957 초 (약 16 분) 가 소요된 반면, LE-NeuS 는 70 초로 단축되어 13.66 배의 속도 향상을 달성했습니다.
- 전체 평균: 평균 지연 시간을 약 550 초에서 42 초로 줄여, 12.53 배의 글로벌 속도 향상을 기록했습니다.
- 프레임 사용량: 처리된 평균 프레임 수를 824 개에서 197 개로 줄여, 불필요한 연산을 효과적으로 제거했습니다.

5. 의의 및 결론 (Significance)

실시간 신경-심볼릭 AI 의 실현: 이 연구는 신경-심볼릭 접근법이 가진 높은 정확도 이점을 유지하면서도, 실용적인 지연 시간 제약을 해결할 수 있음을 입증했습니다.
확장 가능성: 장편 비디오 질문 답변뿐만 아니라, 자율 주행, 로봇 공학, 웨어러블 보조 시력 등 구조화된 시간적 추론이 필수적이면서도 지연 시간에 민감한 다양한 엣지 시스템에 적용 가능한 원리를 제공합니다.
미래 방향: 경량화된 명제 탐지기, 신경망 기반 모델 체킹 근사화, 그리고 쿼리 조건부 오토마타 구축을 통해 더 빠른 실시간 성능을 달성할 수 있는 길을 열었습니다.

요약하자면, LE-NeuS 는 **"적응형 샘플링"**과 **"배치 처리"**를 통해 신경-심볼릭 비디오 이해의 가장 큰 약점인 지연 시간을 해결함으로써, 정확성과 효율성을 동시에 달성한 획기적인 프레임워크입니다.