cs.CV 편의 논문 | Gist.Science

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

이 논문은 비전 대규모 언어 모델 (VLLM) 의 깊은 층에서 기존 토큰 가지치기 방법이 무작위 제거보다 성능이 떨어지는 '정보의 소멸' 현상을 규명하고, 시각적 정보의 유효 깊이를 기반으로 무작위 가지치기를 결합한 새로운 전략을 제안하여 성능을 유지하면서 추론 효율을 극대화함을 보여줍니다.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

이 논문은 오프로드 환경의 도로 네트워크 추출을 위해 대규모 벡터 데이터셋 'WildRoad'를 공개하고, 기존 노드 중심 방식의 한계를 극복하여 경로 중심 추론을 통해 강건한 연결성을 확보하는 'MaGRoad' 프레임워크를 제안합니다.

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

Two-Step Data Augmentation for Masked Face Detection and Recognition: Turning Fake Masks to Real

이 논문은 제한된 자원과 데이터 제약 하에 개발된 2 단계 생성적 데이터 증강 기법을 통해 가짜 마스크를 실제와 유사하게 변환하여 마스크 착용 얼굴 탐지 및 인식 성능을 향상시키는 방법을 제안합니다.

Yan Yang, George Bebis, Mircea Nicolescu2026-03-10🤖 cs.LG

SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks

이 논문은 SALVE 라는 프레임워크를 제안하여 희소 오토인코더와 그라디언트 기반 시각화 기법을 결합해 신경망의 특징을 발견하고 검증하며, 이를 통해 모델의 가중치 공간을 정밀하게 편집하여 AI 시스템의 투명성과 제어 가능성을 높이는 방법을 제시합니다.

Vegard Flovik2026-03-10🤖 cs.LG

ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

이 논문은 가림, 빠른 운동, 장기 재진입과 같은 수술 장면의 어려움으로 인해 SAM3 의 성능이 제한되는 문제를 해결하기 위해, 관련성 기반 메모리 필터링, 메모리 용량 확장, 그리고 재식별 모듈을 포함한 훈련 없는 ReMeDI-SAM3 을 제안하여 EndoVis 및 CholecSeg8k 데이터셋에서 기존 방법보다 우수한 분할 정확도를 달성함을 보여줍니다.

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

이 논문은 전 세계 5 개국 1,000 명의 설문과 거리 영상 데이터를 분석하여 도시 녹지에 대한 주관적 인식과 객관적 측정치 간의 불일치를 규명하고, 인구통계학적·성격적 요인보다 거주 지역의 문화적·환경적 배경이 인식 차이를 설명하는 가장 중요한 요인임을 밝혔습니다.

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

ReDepth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting

이 논문은 기초 모델과 대규모 2D 확산 모델의 강점을 결합하여, 깊이 지도를 재조명하고 입력 이미지를 증강하는 자기지도 학습 프레임워크인 'Re-Depth Anything'을 제안함으로써 단안 깊이 추정의 도메인 격차를 해소하고 정밀도와 현실감을 획기적으로 향상시킨다고 설명합니다.

Ananta R. Bhattarai, Helge Rhodin2026-03-10🤖 cs.LG

VOIC: Visible-Occluded Integrated Guidance for 3D Semantic Scene Completion

이 논문은 단일 이미지 기반 3D 의미 장면 완성 (SSC) 작업에서 가시 영역의 고신뢰도 인식과 가려진 영역의 추론 간 간섭 문제를 해결하기 위해, 가시 영역 라벨 추출 전략과 가시 - 가려진 영역 상호작용을 활용한 이중 디코더 네트워크 (VOIC) 를 제안하여 기존 방법보다 우수한 성능을 달성함을 보여줍니다.

Zaidao Han, Risa Higashita, Jiang Liu2026-03-10💻 cs

Efficient Vision Mamba for MRI Super-Resolution via Hybrid Selective Scanning

이 논문은 2D 패치 추출과 하이브리드 스캐닝을 활용한 다중 헤드 선택적 상태 공간 모델 (MHSSM) 과 경량 채널 MLP 를 결합하여, 기존 딥러닝 기반 MRI 초해상도 방법들보다 압도적으로 적은 계산 비용으로 높은 정확도와 해부학적 세부 정보를 유지하는 효율적인 프레임워크를 제안합니다.

Mojtaba Safari, Shansong Wang, Vanessa L Wildman, Mingzhe Hu, Zach Eidex, Chih-Wei Chang, Erik H Middlebrooks, Richard L. J Qiu, Pretesh Patel, Ashesh B. Jani, Hui Mao, Zhen Tian, Xiaofeng Yang2026-03-10🔬 physics

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

이 논문은 자율주행 생성형 월드 모델의 발전을 촉진하기 위해 다양한 평가 데이터셋과 시각적 사실성, 궤적 타당성, 시간적 일관성, 제어 가능성 등을 종합적으로 측정하는 새로운 메트릭을 포함한 포괄적인 벤치마크 'DrivingGen'을 제안합니다.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

이 논문은 Swin Transformer 비전 인코더와 시퀀스 - 시퀀스 언어 디코더를 통합한 경량 2 단계 멀티태스크 프레임워크를 제안하여 작물 질병 시각적 질문 응답 (VQA) 에서 높은 정확도와 설명 가능성을 달성하고 PlantVillageVQA 벤치마크에서도 우수한 일반화 성능을 입증했습니다.

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam Ansary2026-03-10💬 cs.CL

Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

이 논문은 의료 영상 분석을 위해 라우팅, 검색, 반성, 수리를 수행하는 4 단계 에이전트 프레임워크인 R^4 를 제안하여, 미세 조정 없이도 대형 비전 - 언어 모델의 추론 정확도와 공간적 근거력을 크게 향상시킨다는 것을 보여줍니다.

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

← 이전 다음 →

cs.CV

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

Two-Step Data Augmentation for Masked Face Detection and Recognition: Turning Fake Masks to Real

SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks

ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

ReDepth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting

VOIC: Visible-Occluded Integrated Guidance for 3D Semantic Scene Completion

Efficient Vision Mamba for MRI Super-Resolution via Hybrid Selective Scanning

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering

MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

PhysDrape: Learning Explicit Forces and Collision Constraints for Physically Realistic Garment Draping

Move What Matters: Parameter-Efficient Domain Adaptation via Optimal Transport Flow for Collaborative Perception