When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models

이 논문은 파레idolia(의인화) 현상을 활용하여 다양한 비전 모델이 모호한 시각적 증거를 해석하는 메커니즘을 분석하고, 비전 - 언어 모델이 의미적 과활성화를 보이는 반면 탐지 기반 모델은 보수적 경향을 보임을 규명하여 모델의 표현 방식이 모호성 하에서의 행동과 편향을 결정한다는 것을 제시합니다.

Qianpu Chen, Derya Soydaner, Rob Saunders2026-03-05🤖 cs.AI

Rethinking the Efficiency and Effectiveness of Reinforcement Learning for Radiology Report Generation

이 논문은 의료 데이터의 양보다 질이 중요하다는 점을 규명하고 진단적 다양성 기반 샘플링 전략과 임상적 정확도를 최적화하는 'DiTPO' 알고리즘을 제안하여, 적은 학습 데이터로도 방사선 보고서 생성 분야에서 최첨단 성능을 달성하는 강화학습 프레임워크를 제시합니다.

Zilin Lu, Ruifeng Yuan, Weiwei Cao + 6 more2026-03-05💻 cs

Volumetric Directional Diffusion: Anchoring Uncertainty Quantification in Anatomical Consensus for Ambiguous Medical Image Segmentation

이 논문은 모호한 의학적 영상 분할에서 결정론적 모델의 과도한 확신과 생성 모델의 구조적 오류를 해결하기 위해, 결정론적 합의 사전 지식을 기반으로 3D 경계 잔차장을 예측하여 해부학적 일관성을 유지하면서 불확실성을 정량화하는 '부피 방향성 확산 (VDD)' 모델을 제안합니다.

Chao Wu, Kangxian Xie, Mingchen Gao2026-03-05🤖 cs.AI

DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

이 논문은 조합된 이미지 검색 (CIR) 작업에서 기존 대비 학습의 한계를 극복하고 미세한 속성 변경에 대한 정밀한 검색 성능을 향상시키기 위해, 수정 텍스트에 기반한 학습 가능한 속성 가중치와 목표 상대적 부정 샘플링을 도입한 DQE-CIR 방법을 제안합니다.

Geon Park, Ji-Hoon Park, Seong-Whan Lee2026-03-05🤖 cs.AI

Long-Term Visual Localization in Dynamic Benthic Environments: A Dataset, Footprint-Based Ground Truth, and Visual Place Recognition Benchmark

이 논문은 6 년에 걸친 5 개 해저 사이트의 데이터를 포함한 장기 시각적 국지화를 위한 첫 번째 큐레이션 데이터셋과 정밀한 지상 기준 생성 방법, 그리고 기존 벤치마크보다 낮은 성능을 보이는 최신 시각적 장소 인식 방법들의 평가 결과를 제시합니다.

Martin Kvisvik Larsen, Oscar Pizarro2026-03-05💻 cs

Revisiting the Role of Foundation Models in Cell-Level Histopathological Image Analysis under Small-Patch Constraints -- Effects of Training Data Scale and Blur Perturbations on CNNs and Vision Transformers

이 논문은 세포 수준의 병리 이미지 분석에서 충분한 학습 데이터가 확보된 경우, 제한된 공간적 제약 하에서 사전 훈련된 대형 모델보다 과업 특화 아키텍처가 더 효과적이고 효율적임을 입증했습니다.

Hiroki Kagiyama, Toru Nagasaka, Yukari Adachi + 5 more2026-03-05💻 cs

EgoPoseFormer v2: Accurate Egocentric Human Motion Estimation for AR/VR

이 논문은 제한된 시야와 오클루전, 레이블 데이터 부족이라는 AR/VR 의 과제를 해결하기 위해 트랜스포머 기반의 정밀한 시공간 추정 모델과 대규모 무레이블 데이터를 활용한 자동 라벨링 시스템을 결합한 'EgoPoseFormer v2'를 제안하며, 이를 통해 기존 최첨단 방법 대비 정확도와 시간적 안정성을 획기적으로 개선하고 있음을 보여줍니다.

Zhenyu Li, Sai Kumar Dwivedi, Filip Maric + 11 more2026-03-05💻 cs

Real Eyes Realize Faster: Gaze Stability and Pupil Novelty for Efficient Egocentric Learning

이 논문은 안구 추적 헤드셋의 시선 고정 (안정성) 과 동공 반응 (신규성) 을 결합한 이중 기준 프레임 큐레이터를 제안하여, 웨어러블 기기의 저장 및 배터리 제약 하에서도 전체 스트림과 동등한 학습 성능을 유지하면서 에고센트릭 비디오의 효율적인 데이터 선별을 가능하게 합니다.

Ajan Subramanian, Sumukh Bettadapura, Rohan Sathish2026-03-05💻 cs

Understanding Sources of Demographic Predictability in Brain MRI via Disentangling Anatomy and Contrast

이 논문은 뇌 MRI 에서 인구통계학적 예측 신호가 주로 해부학적 변이에 기인하며 촬영 대비도 차이는 데이터셋에 국한된다는 사실을 해리 표현 학습을 통해 규명함으로써, 편향 완화 전략이 해부학적 및 촬영 의존적 원인을 모두 고려해야 함을 시사합니다.

Mehmet Yigit Avci, Akshit Achara, Andrew King + 1 more2026-03-05🤖 cs.AI

Any2Any: Unified Arbitrary Modality Translation for Remote Sensing

이 논문은 다양한 원격탐사 모달리티 간의 불완전한 관측을 해결하기 위해 공유 잠재 공간 기반의 통합 확산 프레임워크인 'Any2Any'와 대규모 데이터셋 'RST-1M'을 제안하여, 기존 쌍별 변환 방법보다 뛰어난 성능과 미처 보지 못한 모달리티 조합에 대한 제로샷 일반화 능력을 입증합니다.

Haoyang Chen, Jing Zhang, Hebaixu Wang + 7 more2026-03-05💻 cs