cs.CV 편의 논문 | Gist.Science

Keeping the Evidence Chain: Semantic Evidence Allocation for Training-Free Token Pruning in Video Temporal Grounding

이 논문은 비디오 시간적 위치 결정 (VTG) 작업에서 훈련 없이도 쿼리 관련 증거와 프레임 간 연결성을 보존하는 '의미론적 증거 할당' 전략을 통해 토큰 가지치기 효율성을 극대화하는 SemVID 프레임워크를 제안합니다.

Jiaqi Li, Shuntian Zheng, Yixian Shen, Jia-Hong Huang, Xiaoman Lu, Minzhe Ni, Yu Guan2026-03-09💻 cs

Gabor Primitives for Accelerated Cardiac Cine MRI Reconstruction

이 논문은 고주파수 표현의 한계를 극복하고 심박동 영상 재구성을 위해 가우시안 원시 함수를 복소 지수로 변조하여 임의의 k-공간 위치에 스펙트럼을 배치하는 '가보 원시 함수 (Gabor primitives)'를 제안하며, 이를 통해 압축 센싱 및 기존 신경망 기반 방법보다 우수한 성능과 물리적으로 해석 가능한 매개변수를 제공하는 연속 해상도 재구성을 달성함을 보여줍니다.

Wenqi Huang, Veronika Spieker, Nil Stolt-Ansó, Natascha Niessen, Maik Dannecker, Sevgi Gokce Kafali, Sila Kurugol, Julia A. Schnabel, Daniel Rueckert2026-03-09💻 cs

OWL: A Novel Approach to Machine Perception During Motion

이 논문은 고정점 주변의 국소적 시각적 확대와 강체 회전이라는 두 가지 시각적 운동 단서를 기반으로 사전 지식 없이도 실시간으로 3D 공간 지도 작성 및 카메라 방향 추정이 가능한 새로운 기계 지각 함수 'OWL'을 제안합니다.

Daniel Raviv, Juan D. Yepes2026-03-09💻 cs

Longitudinal Lesion Inpainting in Brain MRI via 3D Region Aware Diffusion

이 논문은 뇌 MRI 의 진행성 병변을 제거하기 위해 종단적 맥락을 통합하고 3D 해부학적 연속성을 유지하는 새로운 3D 영역 인식 확산 (RAD) 기반 생성 모델을 제안하여, 기존 방법 대비 뛰어난 화질과 시간적 안정성을 확보하면서 처리 속도를 약 10 배 향상시켰다고 요약할 수 있습니다.

Zahra Karimaghaloo, Dumitru Fetco, Haz-Edine Assemlal, Hassan Rivaz, Douglas L. Arnold2026-03-09🤖 cs.AI

MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents

이 논문은 문서, 이미지, 비디오 등 4 만 6 천 개 이상의 다중 모달 데이터로 구성된 대규모 검색 공간에서 증거를 찾아 추론하는 능력을 평가하기 위해 'MultiHaystack'이라는 새로운 벤치마크를 제안하고, 기존 모델들이 증거가 주어졌을 때는 잘 수행되지만 실제 검색이 필요한 상황에서는 성능이 급격히 저하됨을 보여줍니다.

Dannong Xu, Zhongyu Yang, Jun Chen, Yingfang Yuan, Ming Hu, Lei Sun, Luc Van Gool, Danda Pani Paudel, Chun-Mei Feng2026-03-09💻 cs

Interpretable Perception and Reasoning for Audiovisual Geolocation

이 논문은 시각적 모호성을 극복하고 정밀한 전역 지리 위치 추정을 가능하게 하기 위해, 음향 신호를 의미 있는 '음향 원자'로 분해하고 멀티모달 추론을 결합한 해석 가능한 '오디오비주얼 지리 위치 추정 (AVG)' 프레임워크와 대규모 벤치마크를 제안합니다.

Yiyang Su, Xiaoming Liu2026-03-09💻 cs

Any to Full: Prompting Depth Anything for Depth Completion in One Stage

이 논문은 희소하고 불규칙한 깊이 정보를 단일 단계에서 보정하기 위해 사전 학습된 모노큘러 깊이 추정 모델을 스케일 프롬프트로 적응시키는 범용 프레임워크인 'Any2Full'을 제안하며, 기존 방법들보다 뛰어난 정확도와 효율성을 입증합니다.

Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang2026-03-09💻 cs

Interpretable Motion Artificat Detection in structural Brain MRI

이 논문은 2D 및 3D DHoGM 특징을 병렬로 통합하고 209 개의 매개변수만으로 구성된 경량 해석 가능한 프레임워크를 제안하여, 다양한 촬영 사이트에서 일반화 성능이 뛰어나고 오탐을 최소화하는 뇌 MRI 운동 아티팩트 자동 검출 솔루션을 제시합니다.

Naveetha Nithianandam, Prabhjot Kaur, Anil Kumar Sao2026-03-09💻 cs

Unlocking ImageNet's Multi-Object Nature: Automated Large-Scale Multilabel Annotation

이 논문은 자기지도 학습 비전 트랜스포머를 활용한 자동 파이프라인을 통해 ImageNet 학습 데이터를 단일 레이블에서 다중 레이블로 변환함으로써, 인간 판단과 높은 일치도를 보이며 분류 정확도와 전이 학습 성능을 모두 향상시켰습니다.

Junyu Chen, Md Yousuf Harun, Christopher Kanan2026-03-09💻 cs

From Phase Grounding to Intelligent Surgical Narratives

이 논문은 CLIP 기반의 멀티모달 프레임워크를 활용하여 수술 영상을 자동으로 분석해 시술 단계와 제스처를 텍스트로 변환하고 구조화된 수술 타임라인 및 내러티브를 생성함으로써, 수의사의 수동 기록이나 주석 작업의 부담을 줄이는 방법을 제안합니다.

Ethan Peterson, Huixin Zhan2026-03-09💻 cs

Uni-LVC: A Unified Method for Intra- and Inter-Mode Learned Video Compression

이 논문은 기존 학습 기반 비디오 압축 (LVC) 의 한계를 극복하고, 단일 모델로 내부 (intra) 및 외부 (inter) 코딩을 모두 지원하며 참조 프레임의 신뢰도에 따라 적응적으로 작동하는 통합된 방법인 Uni-LVC 를 제안합니다.

Yichi Zhang, Ruoyu Yang, Fengqing Zhu2026-03-09💻 cs

Full Dynamic Range Sky-Modelling For Image Based Lighting

이 논문은 고해상도 환경 맵 생성 시 기존 딥러닝 모델의 한계를 극복하고 태양 및 구름 형성을 정밀하게 제어할 수 있는 풀 다이내믹 레인지 (FDR) 기반의 새로운 하늘 모델 '이카루스 (Icarus)'를 제안하여 이미지 기반 조명 (IBL) 의 사실성과 정확도를 혁신적으로 향상시켰음을 보여줍니다.

Ian J. Maquignaz2026-03-09🤖 cs.LG

Bridging Domains through Subspace-Aware Model Merging

이 논문은 서로 다른 도메인에서 학습된 모델 간의 서브공간 충돌을 완화하여 도메인 일반화 성능을 향상시키기 위해 주성분 분석을 기반으로 한 공유 직교 기저를 도출하고 대각선 외 성분을 제거하는 'SCORE'라는 새로운 모델 병합 기법을 제안합니다.

Levy Chaves, Chao Zhou, Rebekka Burkholz, Eduardo Valle, Sandra Avila2026-03-09🤖 cs.AI

Layer-wise Instance Binding for Regional and Occlusion Control in Text-to-Image Diffusion Transformers

이 논문은 데이터 편향 없이 텍스트-이미지 생성에서 정밀한 영역 배치와 가림 순서를 제어할 수 있도록, 초기 잠재 구조를 재배열하고 레이어별 인스턴스 바인딩 및 의미 강화 메커니즘을 도입한 훈련 불필요의 플러그인 방식인 'LayerBind'를 제안합니다.

Ruidong Chen, Yancheng Bai, Xuanpu Zhang, Jianhao Zeng, Lanjun Wang, Dan Song, Lei Sun, Xiangxiang Chu, Anan Liu2026-03-09💻 cs

Visual Words Meet BM25: Sparse Auto-Encoder Visual Word Scoring for Image Retrieval

이 논문은 희소 오토인코더 (SAE) 에서 추출한 시각적 단어의 빈도 분포 특성을 활용하여 BM25 점수 방식을 적용한 'BM25-V'를 제안함으로써, 높은 해석 가능성과 효율성을 유지하면서 밀집형 (dense) 검색에 버금가는 정확도를 달성하는 이미지 검색 파이프라인을 제시합니다.

Donghoon Han, Eunhwan Park, Seunghyeon Seo2026-03-09🤖 cs.AI

Spectral Probing of Feature Upsamplers in 2D-to-3D Scene Reconstruction

이 논문은 2D 에서 3D 장면 재구성을 위한 특징 업샘플러의 성능이 공간적 세부 사항 강화보다는 주파수 영역의 구조적 일관성 유지에 더 크게 의존한다는 것을 6 가지 주파수 진단 지표를 통해 규명하고, 이를 바탕으로 업샘플링 전략 설계의 새로운 원칙을 제시합니다.

Ling Xiao, Yuliang Xiu, Yue Chen, Guoming Wang, Toshihiko Yamasaki2026-03-09💻 cs

EventGeM: Global-to-Local Feature Matching for Event-Based Visual Place Recognition

이 논문은 사전 학습된 비전 트랜스포머와 MaxViT 백본을 활용하여 전역 및 지역 특징을 융합하고 깊이 추정 기반 재순위화를 수행함으로써, 다양한 조명 조건에서 실시간으로 작동하며 로봇 플랫폼에서 검증된 최첨단 이벤트 기반 시각적 장소 인식 방법론인 'EventGeM'을 제안합니다.

Adam D. Hines, Gokul B. Nair, Nicolás Marticorena, Michael Milford, Tobias Fischer2026-03-09💻 cs

Training-free Latent Inter-Frame Pruning with Attention Recovery

이 논문은 추가 학습 없이 비디오 생성 모델의 계산 효율성을 높이기 위해 시간적 중복성을 활용한 잠재 공간 프레임 가지치기와 시각적 아티팩트를 보정하는 어텐션 복구 메커니즘을 제안합니다.

Dennis Menn, Yuedong Yang, Bokun Wang, Xiwen Wei, Mustafa Munir, Feng Liang, Radu Marculescu, Chenfeng Xu, Diana Marculescu2026-03-09💻 cs

Margin and Consistency Supervision for Calibrated and Robust Vision Models

이 논문은 분류 정확도를 유지하면서 모델의 보정 능력과 강건성을 동시에 향상시키기 위해, 로짓 간격 확보와 예측 일관성을 강제하는 새로운 정규화 프레임워크인 '마진 및 일관성 감독 (MaCS)'을 제안합니다.

Salim Khazem2026-03-09🤖 cs.AI

Architectural Unification for Polarimetric Imaging Across Multiple Degradations

이 논문은 저조도 노이즈, 모션 블러, 모자이크 아티팩트 등 다양한 열화 조건에서 물리적 일관성을 유지하며 단일 단계로 이미지와 스토크스 영역을 동시에 처리하는 통합 아키텍처를 제안하여 편광 이미징 복원 성능을 획기적으로 향상시켰습니다.

Chu Zhou, Yufei Han, Junda Liao, Linrui Dai, Wangze Xu, Art Subpa-Asa, Heng Guo, Boxin Shi, Imari Sato2026-03-09💻 cs

← 이전 다음 →