Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models
이 논문은 텍스트 쿼리에 따라 중요한 시각 토큰을 동적으로 선택하여 긴 비디오 처리 시 계산 비용을 대폭 줄이면서도 정확도를 유지하거나 향상시키는 경량 모듈인 'QTSplus'를 제안합니다.
7811 편의 논문
이 논문은 텍스트 쿼리에 따라 중요한 시각 토큰을 동적으로 선택하여 긴 비디오 처리 시 계산 비용을 대폭 줄이면서도 정확도를 유지하거나 향상시키는 경량 모듈인 'QTSplus'를 제안합니다.
이 논문은 실제 환경의 왜곡과 실루엣 추출 방법의 편향에 대한 강건성을 평가하기 위해 CASIA-B, CCPG, SUSTech1K 등 다양한 데이터셋과 15 가지 손상 유형을 포함하는 'RobustGait' 프레임워크를 제안하고, 이를 통해 강건성 향상 전략을 제시합니다.
이 논문은 신경 탄젠트 커널 (NTK) 을 활용하여 피팅 오차와 좌표 간 상호작용을 모두 고려해 학습 데이터를 동적으로 선별함으로써, 기존 방법 대비 학습 시간을 약 50% 단축하면서도 표현 품질을 유지하거나 향상시키는 'NTK 기반 암시적 신경 교수 (NINT)' 방법을 제안합니다.
이 논문은 복잡한 편집 지시를 정확하게 해석하기 위해 시각적 피드백을 기반으로 반복적인 지각 - 추론 - 실행 루프를 수행하는 경량 멀티모달 추론 에이전트 'MIRA'를 제안하여, 오픈소스 이미지 편집 모델의 성능을 상용 시스템 수준으로 향상시킨다는 내용을 담고 있습니다.
이 논문은 UAV 가 고도계나 깊이 센서 없이도 단안 RGB 영상과 자연어 명령만으로 복잡한 도시 환경을 항해할 수 있도록, 공간·시간·체화 추론을 통합한 단일 프레임워크와 키프레임 선택 및 행동 병합 기법을 제안하고 AerialVLN 및 OpenFly 벤치마크에서 기존 RGB-only 방법들을 크게 능가하는 성능을 입증합니다.
이 논문은 AMD 및 CNV 진단을 위한 고품질 OCT 분류 모델의 경량화를 위해, ConvNeXtV2-Large 교사 모델을 EfficientNet-B2 학생 모델로 지식 증류하는 'KD-OCT' 프레임워크를 제안하여 임상 환경에 적합한 실시간 배포를 가능하게 함을 보여줍니다.
이 논문은 기존 비전 - 언어 모델 벤치마크가 간과해 온 고차원적 문화적 해석 능력을 평가하기 위해, 8 가지 문화 전통을 아우르는 7,410 개의 이미지 - 비평 쌍과 5 단계 문화 이해 프레임워크를 도입한 'VULCA-Bench'를 제안합니다.
이 논문은 과학적 복합 도해의 개별 패널을 탐지하고 캡션을 생성하는 'FigEx2' 프레임워크를 제안하며, 노이즈 인식 게이트 퓨전 모듈과 강화학습 기반 최적화 전략을 통해 탐지 정확도와 캡션 품질을 대폭 향상시키고 다양한 과학 분야로 제로샷 전이가 가능함을 입증했습니다.
이 논문은 소수 뷰 기반의 새로운 뷰 합성 (NVS) 성능을 향상시키기 위해, 목표 뷰와의 관련성에 따라 입력 뷰의 중요도를 조정하는 카메라 가중치 메커니즘을 제안하고 있습니다.
이 논문은 흐름 매칭 모델의 정렬 과정에서 발생하는 희소 보상 문제를 해결하기 위해, 각 디노이징 단계의 세밀한 기여도를 평가하는 밀집 보상을 예측하고 이를 기반으로 탐색 공간을 적응적으로 조정하는 'DenseGRPO' 프레임워크를 제안합니다.
이 논문은 항공 및 지상 카메라 간의 극단적인 기하학적 왜곡으로 인한 유사성 공간의 왜곡 문제를 해결하기 위해, 카메라 기하학에 기반한 쿼리 - 키 변환 (GIQT) 과 기하학적 조건부 프롬프트 생성 메커니즘을 도입하여 다양한 기준 데이터셋에서 강건한 항공 - 지상 인물 재식별 성능을 달성하는 방법을 제안합니다.
이 논문은 정적 시각적 단서에 의존하는 기존 비디오 LLM 의 한계를 드러내고, 인지 과학에서 영감을 받아 정적 내용은 동일하지만 시간적 구조만 다른 최소 쌍 (minimal-pairs) 방식을 통해 미세한 시공간 구성 능력을 진단하는 새로운 벤치마크 'TimeBlind'를 제안합니다.
이 논문은 비주얼 토큰의 표현을 자연어 설명과 매칭하여 기존 방법보다 훨씬 정교하고 해석 가능한 시각 토큰 분석을 가능하게 하는 'LatentLens'라는 새로운 기법을 제안하고, 이를 통해 다양한 VLM 모델에서 시각과 언어 표현 간의 깊은 정렬을 입증합니다.
이 논문은 기존 LVLM 의 다중 이미지 입력 시 발생하는 정보 누출 문제를 해결하기 위해 추가적인 학습 비용 없이 델리미터 토큰의 은닉 상태를 스케일링하여 이미지 간 구분을 강화하고 추론 성능을 향상시키는 방법을 제안합니다.
이 논문은 보행자, 자전거, 오토바이 등 다양한 취약 도로 사용자 (VRU) 가 혼재하는 복잡한 교통 환경을 위한 고해상도 드론 기반 데이터셋 'HetroD'와 벤치마크를 제안하며, 기존 자율주행 모델이 이러한 비구조적이고 역동적인 VRU 의 행동을 예측하고 계획하는 데 어려움을 겪고 있음을 실증합니다.
이 논문은 CLIP 의 한계를 극복하기 위해 공간 인식 목적 함수로 학습된 TIPS 백본을 활용하고, 이미지 수준 및 픽셀 수준 검출을 위해 프롬프트를 분해하여 주입하는 간단한 아키텍처를 제안함으로써 복잡한 보조 모듈 없이도 다양한 산업 데이터셋에서 강력한 제로샷 이상 탐지 성능을 달성함을 보여줍니다.
이 논문은 멀티스케일 오토레거시브 이미지 생성을 위해 균형을 유지하는 점진적 체커보드 순서를 도입하여, 병렬 샘플링과 조건부 의존성 모델링을 동시에 효율적으로 수행하면서도 적은 샘플링 단계로 최첨단 성능을 달성하는 방법을 제시합니다.
이 논문은 시각적 증거를 능동적으로 수집하고 검증하는 에이전트 추론 프레임워크인 V-Retrver 를 제안하여, 기존 언어 중심의 접근법의 한계를 극복하고 범용 멀티모달 검색의 정확성을 크게 향상시켰습니다.
이 연구는 복부 외상 CT 에서 기초 모델이 작업 특이적 모델과 유사한 판별력을 보이지만, 장 손상이 없는 환자군 내의 동시성 장기 손상과 같은 이질적인 음성 클래스에 의해 특이도가 크게 저하됨을 규명하여 임상 적용 전 이러한 교란 요인에 대한 적응이 필요함을 시사합니다.
이 논문은 텐서 분해 기법을 활용하여 여러 철도 건널목의 비디오에서 접근, 대기, 통과 단계별 운전자 행동 패턴을 추출하고, 시간대보다 위치가 행동 양상을 결정하는 더 중요한 요소임을 규명함으로써 표적 안전 개입을 위한 데이터 기반 프레임워크를 제시합니다.