cs.CV 편의 논문 | Gist.Science

Soft Equivariance Regularization for Invariant Self-Supervised Learning

이 논문은 불변성과 등변성 목표를 서로 다른 계층에 적용하는 '소프트 등변성 정규화 (SER)'를 제안하여, 기존 자기지도학습의 강건성과 전이 성능을 동시에 향상시키는 새로운 설계 원리를 제시합니다.

Joohyung Lee, Changhun Kim, Hyunsu Kim, Kwanhyung Lee, Juho Lee2026-03-10🤖 cs.LG

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

이 논문은 다중 사이트 간 in-vivo 인간 대상자 데이터 수집 없이도 이동 가능한 팬텀만으로 학습된 딥러닝 기반 HARP 프레임워크를 통해 확산 MRI 데이터의 기기 간 변이성을 효과적으로 조화시키고 대규모 임상 연구의 실용성을 높인다는 점을 제시합니다.

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

이 논문은 안구 추적 데이터를 시각적 추론을 위한 지도 신호로 활용하여 의료용 시각 - 언어 모델이 방사선 전문의와 유사한 순차적 증거 수집 방식을 학습하도록 함으로써 진단 성능과 외부 도메인 견고성을 향상시키는 방법을 제안합니다.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer

이 논문은 비대칭 아키텍처 간 지식 증류에서 발생하는 차원 붕괴 현상을 규명하며, 용량 제약이 큰 모델의 노이즈 내성을 근본적으로 저해하는 기하학적 한계와 정보 보존 간의 트레이드오프를 제시합니다.

Kabir Thayani2026-03-10💻 cs

Multi-label Instance-level Generalised Visual Grounding in Agriculture

이 논문은 정밀 농업 분야에서 언어로 표현된 작물 및 잡초 인스턴스를 국소화하는 새로운 벤치마크 데이터셋인 gRef-CW 와 이를 해결하기 위한 Weed-VG 프레임워크를 제안하여, 기존 시각적 grounding 모델의 한계를 극복하고 농업용 다중 레이블 인스턴스 수준의 일반화된 시각적 grounding 을 가능하게 합니다.

Mohammadreza Haghighat, Alzayat Saleh, Mostafa Rahimi Azghadi2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

이 논문은 기존 이미지 품질 평가의 한계를 극복하기 위해 과학적 타당성과 완전성, 인지적 명확성 및 학문적 적합성을 포함하는 새로운 '과학적 이미지 품질 평가 (SIQA)' 프레임워크와 벤치마크를 제안하며, 멀티모달 대규모 언어 모델이 전문가 평가 점수에는 부합하지만 과학적 내용 이해에는 미흡함을 보여줍니다.

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

On the Generalization Capacities of MLLMs for Spatial Intelligence

이 논문은 RGB 입력만 사용하는 멀티모달 대규모 언어 모델 (MLLM) 의 공간 지능 일반화 한계를 지적하고, 카메라 파라미터를 명시적으로 인식하고 증강하는 '카메라 인식 MLLM' 프레임워크를 제안하여 교차 카메라 환경에서의 공간 추론 성능을 획기적으로 향상시켰음을 보여줍니다.

Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu2026-03-10🤖 cs.LG

Uncertainty-Aware Solar Flare Regression

이 논문은 태양 플레어 예측의 신뢰성을 높이기 위해 컨포멀 예측 기법을 적용한 회귀 모델을 제안하며, 특히 컨포멀라이즈드 양자 회귀가 다른 방법들보다 더 높은 커버리지와 적절한 구간 길이를 제공함을 실험을 통해 입증했습니다.

Jinsu Hong, Chetraj Pandey, Berkay Aydin2026-03-10🔭 astro-ph

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

이 논문은 특정 알고리즘에 대한 사전 지식 없이도 이미지 내의 보이지 않는 워터마크 존재 여부를 탐지하는 새로운 과제인 범용 워터마크 존재 탐지 (UWPD) 를 제안하고, UniFreq-100K 데이터셋과 적응형 주파수 감지 모듈을 활용한 FSNet 모델을 통해 기존 방법보다 우수한 제로샷 탐지 성능을 입증했습니다.

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

이 논문은 기존 폐쇄적 어휘 설정의 한계를 극복하기 위해 오픈 어휘 비디오 문장 타이밍 그라운딩 (OV-TSGV) 태스크와 새로운 벤치마크를 제안하고, 계층적 임베딩 정제 및 다중 모달 정렬을 통해 뛰어난 일반화 성능을 보이는 HERO 프레임워크를 소개합니다.

Tingting Han, Xinsong Tao, Yufei Yin, Min Tan, Sicheng Zhao, Zhou Yu2026-03-10💻 cs

Vessel-Aware Deep Learning for OCTA-Based Detection of AMD

이 논문은 OCTA 이미지의 혈관 특이적 굴곡도 및 혈관 드롭아웃 맵을 외부 곱셈 어텐션 프레임워크에 통합하여, AMD 의 병리생리학적 기전과 일치하는 해석 가능한 심층 학습 모델을 제안합니다.

Margalit G. Mitzner, Moinak Bhattacharya, Zhilin Zou, Chao Chen, Prateek Prasanna2026-03-10💻 cs

Heterogeneous Decentralized Diffusion Models

이 논문은 서로 다른 학습 목표 (DDPM 및 Flow Matching) 를 가진 전문가들을 동기화 없이 통합하고, 사전 학습된 체크포인트 변환과 효율적인 아키텍처를 통해 기존 분산 확산 모델 대비 연산 및 데이터 요구량을 획기적으로 줄이면서도 더 우수한 생성 품질을 달성하는 이질적 분산 확산 모델 프레임워크를 제안합니다.

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

ButterflyViT: 354 $\times$ Expert Compression for Edge Vision Transformers

본 논문은 엣지 디바이스에서의 메모리 제약을 해결하기 위해 전문가들을 독립적인 가중치가 아닌 공유된 양자화된 기저의 기하학적 재배열로 모델링하여 64 개의 전문가에서 354 배의 메모리 감소와 거의 손실 없는 정확도를 달성하는 'ButterflyViT'를 제안합니다.

Aryan Karmore2026-03-10💻 cs

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

이 논문은 가시광선 이미지와 식생 지수를 융합하고 자기 주의 메커니즘을 도입한 경량 CNN 인 XMACNet 을 제안하여, 생성된 데이터로 학습된 칠리 잎 질병 분류의 정확도를 높이고 Grad-CAM++ 와 SHAP 을 통해 모델의 판단 근거를 설명 가능하게 만들었음을 소개합니다.

Tapon Kumer Ray, Rajkumar Y, Shalini R, Srigayathri K, Jayashree S, Lokeswari P2026-03-10💻 cs

EarthBridge: A Solution for 4th Multi-modal Aerial View Image Challenge Translation Track

이 논문은 전자기적 특성과 기하학적 차이로 인해 어려운 EO, IR, SAR 센서 간의 교차 모드 이미지 번역 문제를 해결하기 위해 DBIM 과 CUT 기법을 결합한 'EarthBridge' 프레임워크를 제안하고, 4th MAVIC-T 챌린지에서 2 위를 차지한 성능을 입증합니다.

Zhenyuan Chen, Guanyuan Shen, Feng Zhang2026-03-10💻 cs

HiDE: Hierarchical Dictionary-Based Entropy Modeling for Learned Image Compression

이 논문은 외부 사전 정보를 계층적 사전 (전역 구조 및 국소 세부 사항) 으로 분해하고 컨텍스트 인식 파라미터 추정기를 도입하여 기존 학습 기반 이미지 압축의 한계를 극복하고 압축 효율을 크게 향상시킨 HiDE 프레임워크를 제안합니다.

Haoxuan Xiong, Yuanyuan Xu, Kun Zhu, Yiming Wang, Baoliu Ye2026-03-10💻 cs

A Hybrid Machine Learning Model for Cerebral Palsy Detection

이 논문은 VGG-19, Efficient-Net, ResNet50 의 특징 추출과 Bi-LSTM 분류기를 결합한 하이브리드 머신러닝 모델을 제안하여 신생아의 뇌 MRI 이미지를 분석한 결과, 기존 모델들보다 높은 98.83% 의 정확도로 뇌성마비를 조기에 진단할 수 있음을 보여줍니다.

Karan Kumar Singh, Nikita Gajbhiye, Gouri Sankar Mishra2026-03-10💻 cs

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

이 논문은 장기적 비전 - 언어 모델의 최종 정답 정확도가 아닌, 시각적 입력과 일관된 단계별 추론의 신뢰도 (SGR) 가 분포 외 일반화 성능을 예측하는 강력한 지표임을 규명했습니다.

Md Ashikur Rahman, Md Arifur Rahman, Niamul Hassan Samin, Abdullah Ibne Hanif Arean, Juena Ahmed Noshin2026-03-10💻 cs

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

이 논문은 의미론적 그룹링의 한계를 극복하기 위해 운동학적 비틀림 동등성에 기반한 '모션빗 (MotionBit)' 개념과 벤치마크, 학습 없는 그래프 기반 분할 방법을 제안하여 물리적 상호작용 이해를 위한 새로운 분할 패러다임을 제시합니다.

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang2026-03-10💻 cs

Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction

이 논문은 X 선 투과 이미징의 고유한 기하학적 모호성과 물리적 감쇠 특성을 고려하여, 불확실성 모델링과 순차적 의사결정을 통합한 'Perturbed Gaussian Ensemble' 프레임워크를 제안함으로써 희소 뷰 CT 재구성 시 가장 유익한 다음 뷰를 선택하여 재구성 정확도를 향상시키는 방법을 제시합니다.

Yulun Wu, Ruyi Zha, Wei Cao, Yingying Li, Yuanhao Cai, Yaoyao Liu2026-03-10💻 cs

← 이전 다음 →

cs.CV