Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding

이 논문은 비디오 시간적 위치 결정 (VTG) 작업에서 훈련 없이도 쿼리 관련 증거와 프레임 간 연결성을 보존하는 '의미론적 증거 할당' 전략을 통해 토큰 가지치기 효율성을 극대화하는 SemVID 프레임워크를 제안합니다.

Jiaqi Li, Shuntian Zheng, Yixian Shen, Jia-Hong Huang, Xiaoman Lu, Minzhe Ni, Yu Guan2026-03-09💻 cs

Gabor Primitives for Accelerated Cardiac Cine MRI Reconstruction

이 논문은 고주파수 표현의 한계를 극복하고 심박동 영상 재구성을 위해 가우시안 원시 함수를 복소 지수로 변조하여 임의의 k-공간 위치에 스펙트럼을 배치하는 '가보 원시 함수 (Gabor primitives)'를 제안하며, 이를 통해 압축 센싱 및 기존 신경망 기반 방법보다 우수한 성능과 물리적으로 해석 가능한 매개변수를 제공하는 연속 해상도 재구성을 달성함을 보여줍니다.

Wenqi Huang, Veronika Spieker, Nil Stolt-Ansó, Natascha Niessen, Maik Dannecker, Sevgi Gokce Kafali, Sila Kurugol, Julia A. Schnabel, Daniel Rueckert2026-03-09💻 cs

Longitudinal Lesion Inpainting in Brain MRI via 3D Region Aware Diffusion

이 논문은 뇌 MRI 의 진행성 병변을 제거하기 위해 종단적 맥락을 통합하고 3D 해부학적 연속성을 유지하는 새로운 3D 영역 인식 확산 (RAD) 기반 생성 모델을 제안하여, 기존 방법 대비 뛰어난 화질과 시간적 안정성을 확보하면서 처리 속도를 약 10 배 향상시켰다고 요약할 수 있습니다.

Zahra Karimaghaloo, Dumitru Fetco, Haz-Edine Assemlal, Hassan Rivaz, Douglas L. Arnold2026-03-09🤖 cs.AI

MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents

이 논문은 문서, 이미지, 비디오 등 4 만 6 천 개 이상의 다중 모달 데이터로 구성된 대규모 검색 공간에서 증거를 찾아 추론하는 능력을 평가하기 위해 'MultiHaystack'이라는 새로운 벤치마크를 제안하고, 기존 모델들이 증거가 주어졌을 때는 잘 수행되지만 실제 검색이 필요한 상황에서는 성능이 급격히 저하됨을 보여줍니다.

Dannong Xu, Zhongyu Yang, Jun Chen, Yingfang Yuan, Ming Hu, Lei Sun, Luc Van Gool, Danda Pani Paudel, Chun-Mei Feng2026-03-09💻 cs

Any to Full: Prompting Depth Anything for Depth Completion in One Stage

이 논문은 희소하고 불규칙한 깊이 정보를 단일 단계에서 보정하기 위해 사전 학습된 모노큘러 깊이 추정 모델을 스케일 프롬프트로 적응시키는 범용 프레임워크인 'Any2Full'을 제안하며, 기존 방법들보다 뛰어난 정확도와 효율성을 입증합니다.

Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang2026-03-09💻 cs

Layer-wise Instance Binding for Regional and Occlusion Control in Text-to-Image Diffusion Transformers

이 논문은 데이터 편향 없이 텍스트-이미지 생성에서 정밀한 영역 배치와 가림 순서를 제어할 수 있도록, 초기 잠재 구조를 재배열하고 레이어별 인스턴스 바인딩 및 의미 강화 메커니즘을 도입한 훈련 불필요의 플러그인 방식인 'LayerBind'를 제안합니다.

Ruidong Chen, Yancheng Bai, Xuanpu Zhang, Jianhao Zeng, Lanjun Wang, Dan Song, Lei Sun, Xiangxiang Chu, Anan Liu2026-03-09💻 cs

Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval

이 논문은 희소 오토인코더 (SAE) 에서 추출한 시각적 단어의 빈도 분포 특성을 활용하여 BM25 점수 방식을 적용한 'BM25-V'를 제안함으로써, 높은 해석 가능성과 효율성을 유지하면서 밀집형 (dense) 검색에 버금가는 정확도를 달성하는 이미지 검색 파이프라인을 제시합니다.

Donghoon Han, Eunhwan Park, Seunghyeon Seo2026-03-09🤖 cs.AI

Spectral Probing of Feature Upsamplers in 2D-to-3D Scene Reconstruction

이 논문은 2D 에서 3D 장면 재구성을 위한 특징 업샘플러의 성능이 공간적 세부 사항 강화보다는 주파수 영역의 구조적 일관성 유지에 더 크게 의존한다는 것을 6 가지 주파수 진단 지표를 통해 규명하고, 이를 바탕으로 업샘플링 전략 설계의 새로운 원칙을 제시합니다.

Ling Xiao, Yuliang Xiu, Yue Chen, Guoming Wang, Toshihiko Yamasaki2026-03-09💻 cs

EventGeM: Global-to-Local Feature Matching for Event-Based Visual Place Recognition

이 논문은 사전 학습된 비전 트랜스포머와 MaxViT 백본을 활용하여 전역 및 지역 특징을 융합하고 깊이 추정 기반 재순위화를 수행함으로써, 다양한 조명 조건에서 실시간으로 작동하며 로봇 플랫폼에서 검증된 최첨단 이벤트 기반 시각적 장소 인식 방법론인 'EventGeM'을 제안합니다.

Adam D. Hines, Gokul B. Nair, Nicolás Marticorena, Michael Milford, Tobias Fischer2026-03-09💻 cs

Architectural Unification for Polarimetric Imaging Across Multiple Degradations

이 논문은 저조도 노이즈, 모션 블러, 모자이크 아티팩트 등 다양한 열화 조건에서 물리적 일관성을 유지하며 단일 단계로 이미지와 스토크스 영역을 동시에 처리하는 통합 아키텍처를 제안하여 편광 이미징 복원 성능을 획기적으로 향상시켰습니다.

Chu Zhou, Yufei Han, Junda Liao, Linrui Dai, Wangze Xu, Art Subpa-Asa, Heng Guo, Boxin Shi, Imari Sato2026-03-09💻 cs