cs.CV 편의 논문 | Gist.Science

Phi-4-reasoning-vision-15B Technical Report

이 논문은 체계적인 데이터 선별과 고해상도 인코더 아키텍처를 통해 컴퓨팅 자원을 효율적으로 사용하면서도 과학·수학 추론 및 UI 이해에 탁월한 성능을 보이는 소형 오픈 가중치 멀티모달 모델인 Phi-4-reasoning-vision-15B 의 개발 과정과 핵심 통찰을 제시합니다.

Jyoti Aneja, Michael Harrison, Neel Joshi + 3 more2026-03-05🤖 cs.AI

GeoSeg: Training-Free Reasoning-Driven Segmentation in Remote Sensing Imagery

이 논문은 원격 탐사 영상의 과감한 추론 기반 분할을 위해 MLLM 추론과 정밀한 위치 추정을 결합한 제로샷 프레임워크 GeoSeg 과 이를 평가하는 벤치마크 GeoSeg-Bench 를 제안합니다.

Lifan Jiang, Yuhang Pei, oxi Wu + 5 more2026-03-05🤖 cs.AI

RIVER: A Real-Time Interaction Benchmark for Video LLMs

이 논문은 오프라인 비디오 이해의 한계를 극복하고 실시간 상호작용을 평가하기 위해 회고적 기억, 실시간 인지, 사전 예측 태스크를 포함하는 새로운 벤치마크인 RIVER 를 제안하고, 이를 통해 실시간 비디오 이해 모델의 발전 방향을 제시합니다.

Yansong Shi, Qingsong Zhao, Tianxiang Jiang + 3 more2026-03-05💻 cs

When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models

이 논문은 파레idolia(의인화) 현상을 활용하여 다양한 비전 모델이 모호한 시각적 증거를 해석하는 메커니즘을 분석하고, 비전 - 언어 모델이 의미적 과활성화를 보이는 반면 탐지 기반 모델은 보수적 경향을 보임을 규명하여 모델의 표현 방식이 모호성 하에서의 행동과 편향을 결정한다는 것을 제시합니다.

Qianpu Chen, Derya Soydaner, Rob Saunders2026-03-05🤖 cs.AI

Weakly Supervised Patch Annotation for Improved Screening of Diabetic Retinopathy

이 논문은 희소한 전문가 주석을 확장하여 당뇨망막병증의 초기 병변을 정밀하게 식별하고 분류 성능을 향상시키기 위해, 약한 지도 학습과 대비 학습을 결합한 'SAFE'라는 2 단계 프레임워크를 제안합니다.

Shramana Dey, Abhirup Banerjee, B. Uma Shankar + 2 more2026-03-05💻 cs

Discriminative Perception via Anchored Description for Reasoning Segmentation

이 논문은 추론 분할에서 모델이 참조 대상에 집중하도록 유도하여 추론의 정확성을 높이고 불필요한 설명을 줄이기 위해, 대상에 대한 설명적 캡션을 생성하고 이를 문맥과 대비하여 차별적 지각을 학습하는 'DPAD' 방법을 제안합니다.

Tao Yang, Qing Zhou, Yanliang Li + 1 more2026-03-05🤖 cs.AI

Rethinking the Efficiency and Effectiveness of Reinforcement Learning for Radiology Report Generation

이 논문은 의료 데이터의 양보다 질이 중요하다는 점을 규명하고 진단적 다양성 기반 샘플링 전략과 임상적 정확도를 최적화하는 'DiTPO' 알고리즘을 제안하여, 적은 학습 데이터로도 방사선 보고서 생성 분야에서 최첨단 성능을 달성하는 강화학습 프레임워크를 제시합니다.

Zilin Lu, Ruifeng Yuan, Weiwei Cao + 6 more2026-03-05💻 cs

Volumetric Directional Diffusion: Anchoring Uncertainty Quantification in Anatomical Consensus for Ambiguous Medical Image Segmentation

이 논문은 모호한 의학적 영상 분할에서 결정론적 모델의 과도한 확신과 생성 모델의 구조적 오류를 해결하기 위해, 결정론적 합의 사전 지식을 기반으로 3D 경계 잔차장을 예측하여 해부학적 일관성을 유지하면서 불확실성을 정량화하는 '부피 방향성 확산 (VDD)' 모델을 제안합니다.

Chao Wu, Kangxian Xie, Mingchen Gao2026-03-05🤖 cs.AI

DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

이 논문은 조합된 이미지 검색 (CIR) 작업에서 기존 대비 학습의 한계를 극복하고 미세한 속성 변경에 대한 정밀한 검색 성능을 향상시키기 위해, 수정 텍스트에 기반한 학습 가능한 속성 가중치와 목표 상대적 부정 샘플링을 도입한 DQE-CIR 방법을 제안합니다.

Geon Park, Ji-Hoon Park, Seong-Whan Lee2026-03-05🤖 cs.AI

Long-Term Visual Localization in Dynamic Benthic Environments: A Dataset, Footprint-Based Ground Truth, and Visual Place Recognition Benchmark

이 논문은 6 년에 걸친 5 개 해저 사이트의 데이터를 포함한 장기 시각적 국지화를 위한 첫 번째 큐레이션 데이터셋과 정밀한 지상 기준 생성 방법, 그리고 기존 벤치마크보다 낮은 성능을 보이는 최신 시각적 장소 인식 방법들의 평가 결과를 제시합니다.

Martin Kvisvik Larsen, Oscar Pizarro2026-03-05💻 cs

Tuning Just Enough: Lightweight Backdoor Attacks on Multi-Encoder Diffusion Models

이 논문은 Stable Diffusion 3 과 같은 다중 텍스트 인코더 모델에서 전체 파라미터의 0.2% 미만만 학습하여 효과적인 백도어 공격을 수행할 수 있음을 규명하고, 이를 위해 저랭크 어댑터만 학습하는 MELT 방법을 제안합니다.

Ziyuan Chen, Yujin Jeong, Tobias Braun + 1 more2026-03-05🤖 cs.LG

Revisiting the Role of Foundation Models in Cell-Level Histopathological Image Analysis under Small-Patch Constraints -- Effects of Training Data Scale and Blur Perturbations on CNNs and Vision Transformers

이 논문은 세포 수준의 병리 이미지 분석에서 충분한 학습 데이터가 확보된 경우, 제한된 공간적 제약 하에서 사전 훈련된 대형 모델보다 과업 특화 아키텍처가 더 효과적이고 효율적임을 입증했습니다.

Hiroki Kagiyama, Toru Nagasaka, Yukari Adachi + 5 more2026-03-05💻 cs

← 이전 다음 →

cs.CV

Phi-4-reasoning-vision-15B Technical Report

GeoSeg: Training-Free Reasoning-Driven Segmentation in Remote Sensing Imagery

RIVER: A Real-Time Interaction Benchmark for Video LLMs

When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models

Weakly Supervised Patch Annotation for Improved Screening of Diabetic Retinopathy

Discriminative Perception via Anchored Description for Reasoning Segmentation

Rethinking the Efficiency and Effectiveness of Reinforcement Learning for Radiology Report Generation

Volumetric Directional Diffusion: Anchoring Uncertainty Quantification in Anatomical Consensus for Ambiguous Medical Image Segmentation

DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

Long-Term Visual Localization in Dynamic Benthic Environments: A Dataset, Footprint-Based Ground Truth, and Visual Place Recognition Benchmark

Tuning Just Enough: Lightweight Backdoor Attacks on Multi-Encoder Diffusion Models

Revisiting the Role of Foundation Models in Cell-Level Histopathological Image Analysis under Small-Patch Constraints -- Effects of Training Data Scale and Blur Perturbations on CNNs and Vision Transformers

EgoPoseFormer v2: Accurate Egocentric Human Motion Estimation for AR/VR

CLIP-Guided Multi-Task Regression for Multi-View Plant Phenotyping

Real Eyes Realize Faster: Gaze Stability and Pupil Novelty for Efficient Egocentric Learning

Efficient Point Cloud Processing with High-Dimensional Positional Encoding and Non-Local MLPs

Understanding Sources of Demographic Predictability in Brain MRI via Disentangling Anatomy and Contrast

Any2Any: Unified Arbitrary Modality Translation for Remote Sensing

TextBoost: Boosting Scene Text Fidelity in Ultra-low Bitrate Image Compression

A Baseline Study and Benchmark for Few-Shot Open-Set Action Recognition with Feature Residual Discrimination