ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

이 논문은 시각 및 촉각 데이터 간의 정교한 공간적 상관관계를 포착하기 위해 로컬 및 글로벌 위치 인코딩을 2 단계로 주입하는 트랜스포머 기반 아키텍처인 ViTaPEs 를 제안하여, 다양한 인식 작업과 로봇 그리핑에서 최첨단 성능과 제로샷 일반화 능력을 입증합니다.

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

Transforming H&E images into IHC: A Variance-Penalized GAN for Precision Oncology

이 논문은 GAN 의 모드 붕괴 문제를 해결하고 구조적 다양성을 강화하기 위해 분산 패널티를 도입한 변형된 피라미드 pix2pix 모델을 개발하여, 비용 효율적이고 확장 가능한 HER2 양성 유방암 진단을 위해 H&E 염색 이미지를 고품질 IHC 이미지로 변환하는 새로운 딥러닝 프레임워크를 제시합니다.

Sara Rehmat, Hafeez Ur Rehman, Byeong-Gwon Kang, Sarra Ayouni, Yunyoung Nam2026-03-10💻 cs

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

이 논문은 조명과 법선 정보를 명확히 분리하고 고주파 기하학적 디테일을 보존하기 위해 '라이트 레지스터 토큰', '교차 어텐션 블록', '웨이블릿 기반 듀얼 브랜치 아키텍처'를 도입하고 대규모 데이터셋 'PS-Verse'를 활용하여 범용 광학 스테레오의 성능을 획기적으로 개선한 'Light of Normals' 모델을 제안합니다.

Houyuan Chen, Hong Li, Chongjie Ye + 11 more2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

이 논문은 시각 언어 모델 (VLM) 에서 추출한 특징을 명시적 프롬프트로 활용하여 SAM 을 유도하고, 분류 단계에서 도메인 간극을 해소하기 위해 하드 크롭 대신 알파 채널을 통한 소프트 공간 사전 정보를 제공함으로써, 기존 방법들의 한계를 극복하고 은폐된 객체의 분할 및 분류 정확도를 획기적으로 향상시키는 새로운 캐스케이드 프레임워크를 제안합니다.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

이 논문은 사전 훈련된 잠재 확산 모델과 다중 모달 이해 모델을 활용하여 데이터셋 없이도 다양한 저해상도 이미지 복원 작업을 통합적으로 수행하는 새로운 제로샷 방법인 LD-RPS 를 제안하고, 반복적 사후 샘플링을 통해 기존 방법들을 능가하는 성능을 입증합니다.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

이 논문은 센서 고장이나 개인정보 보호로 인한 불완전한 멀티모달 데이터의 감정 인식 성능 저하 문제를 해결하기 위해, 모달리티 조합별 특성을 고려한 저랭크 적응 기법 (MCLA) 과 표현 공간의 분리 가능성을 기반으로 동적 파라미터 미세 조정을 수행하는 (DPFT) 새로운 프레임워크인 MCULoRA 를 제안하여 기존 방법보다 뛰어난 성능을 입증했습니다.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Unified Medical Image Segmentation with State Space Modeling Snake

이 논문은 다중 스케일 구조적 이질성으로 인한 기존 의료 영상 분할의 한계를 극복하기 위해 상태 공간 모델을 활용한 'Mamba Snake'를 제안하여, 장기 간 위상적 관계와 미세한 윤곽 정제를 동시에 최적화함으로써 최첨단 방법론 대비 평균 3% 의 Dice 점수 개선을 달성했다고 요약할 수 있습니다.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

본 논문은 손실된 지상 데이터가 부족한 재해 상황에서 TASA 의 EVAP 제품을 보완하기 위해 Sentinel-2 와 Formosat-5 영상을 활용하고 PCA 기반 약지도 학습을 통해 확장된 라벨로 훈련된 비전 트랜스포머 (ViT) 기반 모델을 제안하여 재해 피해 지역 분할의 정확성과 공간적 일관성을 향상시켰음을 보여줍니다.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Empowering Microscopic Traffic Simulators with Realistic Perception using Surrogate Sensor Models

이 논문은 기존 미시적 교통 시뮬레이터의 확장성 한계를 극복하고 현실적인 LiDAR 감지 능력을 추가하기 위해, 고수준 교통 데이터와 기하학적 가시성 분석을 결합한 대리 센서 모델 'MIDAR'을 제안하고 이를 통해 대규모 교통 시뮬레이션의 정밀도와 실시간성을 동시에 향상시켰음을 보여줍니다.

Tianheng Zhu, Yiheng Feng2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

이 논문은 CNN 의 국소적 특징 추출 능력과 트랜스포머의 전역적 문맥 이해 능력을 결합한 TransUNet-GradCAM 모델을 제안하여, 다양한 외부 데이터셋에서도 견고한 제로샷 성능과 높은 설명 가능성을 갖춘 당뇨병성 발궤양 자동 분할 솔루션을 제시합니다.

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

S2^2Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

본 논문은 비디오 확산 트랜스포머의 양자화 시 발생하는 긴 토큰 시퀀스로 인한 학습 난이도와 보정 분산을 해결하기 위해, 헤시안 기반의 중요 데이터 선택과 희소 어텐션 토큰 증류 기법을 도입하여 W4A6 양자화 환경에서도 손실 없는 성능을 달성하는 S2^2Q-VDiT 프레임워크를 제안합니다.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

이 논문은 다중 스펙트럼 원격 탐사 이미지의 스펙트럼 정보를 효과적으로 활용하여 토지 피복 추출 성능을 획기적으로 개선하고 해석 가능한 설명을 생성하는 최초의 비전 - 언어 모델인 SPEX 와 이를 학습시키기 위한 SPIE 데이터셋을 제안합니다.

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang2026-03-10💻 cs

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

이 논문은 180 도를 초과하는 초광각 피시아이 이미지에서 3D 가우스 스플래팅의 성능을 최초로 평가하고, 기존 SfM 초기화의 한계를 극복하기 위해 UniK3D 를 활용한 깊이 기반 초기화 방법을 제안하여 160 도 시야각에서 최적의 재구성 성능을 보임을 입증합니다.

Ulas Gunes, Matias Turkulainen, Mikhail Silaev, Juho Kannala, Esa Rahtu2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

이 논문은 소스 데이터 접근 유무에 관계없이 해부학적 지식을 명시적으로 구조화하여 도메인 간 적응을 가능하게 하는 통합된 의미 기반 프레임워크를 제안함으로써 의료 영상 분할 분야에서 기존 방법론의 한계를 극복하고 최첨단 성능을 달성합니다.

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs