cs.CV 편의 논문 | Gist.Science

Fusion Complexity Inversion: Why Simpler Cross View Modules Outperform SSMs and Cross View Attention Transformers for Pasture Biomass Regression

이 논문은 목초 생체량 회귀 과제에서 데이터의 희소성으로 인해 복잡한 융합 모듈보다 단순한 국소 모듈이 더 우수한 성능을 보이며, 특히 백본 모델의 사전 학습 품질이 아키텍처 선택보다 결정적인 요소임을 규명했습니다.

Mridankan Mandal2026-03-10🤖 cs.LG

Transferable Optimization Network for Cross-Domain Image Reconstruction

이 논문은 다양한 도메인의 대규모 이질적 데이터로 범용 특징 추출기를 학습한 후, 제한된 데이터만 있는 새로운 타겟 도메인에 맞춰 어댑터를 학습하는 이중 최적화 기반 전이 학습 프레임워크를 제안하여, 데이터 부족 문제를 해결하고 고품질의 이미지 재구성을 가능하게 합니다.

Yunmei Chen, Chi Ding, Xiaojing Ye2026-03-10🤖 cs.LG

GazeShift: Unsupervised Gaze Estimation and Dataset for VR

이 논문은 VR 환경의 데이터 부족 문제를 해결하기 위해 대규모 오프-축 안구 추측 데이터셋인 VRGaze 를 공개하고, 라벨 없이 학습 가능한 효율적인 어텐션 기반 프레임워크 GazeShift 를 제안하여 실시간 및 저비용 gaze 추정을 가능하게 합니다.

Gil Shapira, Ishay Goldin, Evgeny Artyomov, Donghoon Kim, Yosi Keller, Niv Zehngut2026-03-10💻 cs

Training-free Temporal Object Tracking in Surgical Videos

이 논문은 학습이나 미세 조정 없이 사전 훈련된 텍스트 - 이미지 확산 모델의 특성을 활용하여, 라aparoscopic 담낭 절제술 비디오에서 중요한 해부학적 구조와 기기의 시간적 추적을 비용 효율적이고 정확하게 수행하는 새로운 방법을 제안합니다.

Subhadeep Koley, Abdolrahim Kadkhodamohammadi, Santiago Barbarisi, Danail Stoyanov, Imanol Luengo2026-03-10💻 cs

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

본 논문은 캐시된 오디오를 의미적으로 유사한 예시로 워밍업하여 학습 없이 텍스트-오디오 확산 모델의 지연 시간을 1.8~3.0 배 단축하면서도 음질을 유지하거나 향상시키는 첫 번째 모델-중립적 서비스 시스템인 'SoundWeaver'를 제안합니다.

Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan Lai2026-03-10💻 cs

Toward Unified Multimodal Representation Learning for Autonomous Driving

이 논문은 자율주행을 위한 엔드투엔드 성능 향상을 위해 기존 쌍별 유사도 정렬의 한계를 극복하고, 다중 모달리티를 통합된 임베딩 공간에 동시 정렬하는 '대조 텐서 프리트레이닝 (CTP)' 프레임워크를 제안합니다.

Ximeng Tao, Dimitar Filev, Gaurav Pandey2026-03-10🤖 cs.LG

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

이 논문은 기존 벤치마크가 놓치고 있는 미세한 시각적 차이 식별 능력을 평가하기 위해 산업, 의료, 항공 등 다양한 도메인과 10 가지 차이 유형을 포괄하는 'VLM-SubtleBench'를 제안하고, 이를 통해 현재 VLM 들이 인간 수준의 비교 추론에 도달하기까지 여전히 큰 격차가 있음을 규명합니다.

Minkyu Kim, Sangheon Lee, Dongmin Park2026-03-10🤖 cs.LG

Structure and Progress Aware Diffusion for Medical Image Segmentation

이 논문은 의료 이미지 분할을 위해 거시적 구조 이해에서 미세한 경계 정밀화까지 점진적으로 전환하는 '구조 및 진행 인식 확산 (SPAD)' 모델을 제안하며, 이는 의미 중심 확산과 경계 중심 확산을 진행 인식 스케줄러로 조절하여 학습 효율성을 높입니다.

Siyuan Song, Guyue Hu, Chenglong Li, Dengdi Sun, Zhe Jin, Jin Tang2026-03-10💻 cs

Visualizing Coalition Formation: From Hedonic Games to Image Segmentation

이 논문은 헤도닉 게임의 연합 형성 과정을 시각적으로 진단하기 위해 이미지 분할을 테스트베드로 활용하며, 입자화 매개변수가 균형의 분열과 경계 구조에 미치는 영향을 정량화하고 메커니즘 설계가 다중 에이전트 시스템의 균형 구조에 어떻게 영향을 주는지 규명합니다.

Pedro Henrique de Paula França, Lucas Lopes Felipe, Daniel Sadoc Menasché2026-03-10💻 cs

MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

이 논문은 공간 전사체학 데이터를 지도 신호로 활용하여 병리학 기초 모델의 형태학적 표현에 분자 상태를 효과적으로 통합하는 'MINT' 프레임워크를 제안하고, 이를 통해 유전자 발현 예측 및 일반 병리학 작업에서 기존 모델보다 우수한 성능을 입증했습니다.

Minsoo Lee, Jonghyun Kim, Juseung Yun, Sunwoo Yu, Jongseong Jang2026-03-10💻 cs

Revisiting Unknowns: Towards Effective and Efficient Open-Set Active Learning

이 논문은 레이블이 지정된 미지 클래스를 활용하여 기존 오픈셋 활성 학습의 한계를 극복하고, 검출기 없이도 높은 정확도와 효율성을 달성하는 통합 프레임워크인 E $^2$ OAL 을 제안합니다.

Chen-Chen Zong, Yu-Qi Chi, Xie-Yang Wang, Yan Cui, Sheng-Jun Huang2026-03-10🤖 cs.LG

Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition

이 논문은 비관점적 프롬프트 엔지니어링의 한계를 극복하기 위해 클래스별 개념을 잠재 변수로 활용하고 베이지안 프레임워크를 도입하여, LLM 기반의 개념 생성과 다양성 확보, 그리고 이상치 개념을 억제하는 적응형 소프트-트림 기법을 통해 제로샷 이미지 인식 성능을 획기적으로 향상시키는 새로운 접근법을 제시합니다.

Hui Liu, Kecheng Chen, Jialiang Wang, Xianming Liu, Wenya Wang, Haoliang Li2026-03-10💻 cs

Geometric Transformation-Embedded Mamba for Learned Video Compression

이 논문은 명시적인 운동 추정 없이 비선형 변환과 엔트로피 코딩을 기반으로 하며, 기하학적 변환이 내장된 캐스케이드 Mamba 모듈과 국소성 정제 피드포워드 네트워크를 활용하여 저비트레이트 환경에서 기존 방법보다 우수한 화질과 시간적 일관성을 달성하는 새로운 비디오 압축 프레임워크를 제안합니다.

Hao Wei, Yanhui Zhou, Chenyang Ge2026-03-10💻 cs

Enhancing Unregistered Hyperspectral Image Super-Resolution via Unmixing-based Abundance Fusion Learning

이 논문은 정합되지 않은 고해상도 참조 이미지를 활용하여 저해상도 초분광 이미지의 해상도를 향상시키기 위해 분해 기반의 풍부도 융합 학습 프레임워크를 제안하며, 이를 통해 공간 - 스펙트럼 정보를 분리하고 변형 가능한 집계 모듈 및 공간 - 채널 변조 융합 모듈을 적용해 최첨단 성능을 달성함을 보여줍니다.

Yingkai Zhang, Tao Zhang, Jing Nie, Ying Fu2026-03-10💻 cs

RLPR: Radar-to-LiDAR Place Recognition via Two-Stage Asymmetric Cross-Modal Alignment for Autonomous Driving

이 논문은 다양한 레이더 유형과 기상 조건에서 LiDAR 매핑을 기반으로 한 자율 주행 장소를 인식하기 위해, 센서별 신호 특성을 추상화하는 듀얼 스트림 네트워크와 비대칭 교차 모드 정렬 전략을 결합한 RLPR 프레임워크를 제안하고, 이를 통해 최첨단 인식 정확도와 제로샷 일반화 능력을 입증했습니다.

Zhangshuo Qi, Jingyi Xu, Luqi Cheng, Shichen Wen, Guangming Xiong2026-03-10💻 cs

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

이 논문은 비전 트랜스포머의 고유한 스펙트럼 전문가를 활용하고 엔트로피 최소화 한계를 극복하기 위한 다양성 최대화 손실 함수를 도입하여, 최소한의 파라미터 업데이트로 테스트 시간 적응 (TTA) 및 연속적 테스트 시간 적응 (CTTA) 성능을 획기적으로 개선한 'IMSE' 방법을 제안합니다.

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

← 이전 다음 →

cs.CV

Fusion Complexity Inversion: Why Simpler Cross View Modules Outperform SSMs and Cross View Attention Transformers for Pasture Biomass Regression

Transferable Optimization Network for Cross-Domain Image Reconstruction

GazeShift: Unsupervised Gaze Estimation and Dataset for VR

Training-free Temporal Object Tracking in Surgical Videos

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

Toward Unified Multimodal Representation Learning for Autonomous Driving

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Structure and Progress Aware Diffusion for Medical Image Segmentation

Visualizing Coalition Formation: From Hedonic Games to Image Segmentation

MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

Revisiting Unknowns: Towards Effective and Efficient Open-Set Active Learning

Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition

Geometric Transformation-Embedded Mamba for Learned Video Compression

Enhancing Unregistered Hyperspectral Image Super-Resolution via Unmixing-based Abundance Fusion Learning

RLPR: Radar-to-LiDAR Place Recognition via Two-Stage Asymmetric Cross-Modal Alignment for Autonomous Driving

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

A Hybrid Vision Transformer Approach for Mathematical Expression Recognition

Text to Automata Diagrams: Comparing TikZ Code Generation with Direct Image Synthesis

$L^3$ :Scene-agnostic Visual Localization in the Wild

VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer

cs.CV

Fusion Complexity Inversion: Why Simpler Cross View Modules Outperform SSMs and Cross View Attention Transformers for Pasture Biomass Regression

Transferable Optimization Network for Cross-Domain Image Reconstruction

GazeShift: Unsupervised Gaze Estimation and Dataset for VR

Training-free Temporal Object Tracking in Surgical Videos

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

Toward Unified Multimodal Representation Learning for Autonomous Driving

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Structure and Progress Aware Diffusion for Medical Image Segmentation

Visualizing Coalition Formation: From Hedonic Games to Image Segmentation

MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

Revisiting Unknowns: Towards Effective and Efficient Open-Set Active Learning

Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition

Geometric Transformation-Embedded Mamba for Learned Video Compression

Enhancing Unregistered Hyperspectral Image Super-Resolution via Unmixing-based Abundance Fusion Learning

RLPR: Radar-to-LiDAR Place Recognition via Two-Stage Asymmetric Cross-Modal Alignment for Autonomous Driving

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

A Hybrid Vision Transformer Approach for Mathematical Expression Recognition

Text to Automata Diagrams: Comparing TikZ Code Generation with Direct Image Synthesis

L3L^3L3:Scene-agnostic Visual Localization in the Wild

VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer

$L^3$ :Scene-agnostic Visual Localization in the Wild