SPMamba-YOLO: An Underwater Object Detection Network Based on Multi-Scale Feature Enhancement and Global Context Modeling

이 논문은 수중 환경의 열악한 조건과 작은 표적 탐지 문제를 해결하기 위해 다중 스케일 특징 강화와 글로벌 컨텍스트 모델링을 통합한 새로운 SPMamba-YOLO 네트워크를 제안하며, URPC2022 데이터셋에서 기존 YOLOv8n 대비 4.9% 이상 높은 mAP@0.5 성능을 입증했습니다.

Guanghao Liao, Zhen Liu, Liyuan Cao + 2 more2026-02-27💻 cs

ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport

이 논문은 CLIP 스타일의 대비 학습에 유사성 그래프 정규화 최적 수송 (SIGROT) 손실을 통합하여 저자원 언어인 베트남어 이미지 - 텍스트 검색 성능을 획기적으로 개선한 최초의 기반 비전 - 언어 모델인 ViCLIP-OT 를 제안하고, 여러 벤치마크에서 기존 모델들을 능가하는 성과를 입증합니다.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-02-27🤖 cs.AI

IRSDE-Despeckle: A Physics-Grounded Diffusion Model for Generalizable Ultrasound Despeckling

이 논문은 MRI 이미지를 기반으로 한 시뮬레이션 데이터로 학습된 물리 기반 확산 모델 'IRSDE-Despeckle'을 제안하여 초음파 영상의 잡음을 효과적으로 제거하면서도 해부학적 구조를 보존하고 예측 불확실성을 정량화하여 임상 적용의 견고성을 강화하는 방법을 제시합니다.

Shuoqi Chen, Yujia Wu, Geoffrey P. Luke2026-02-27💻 cs

Asymmetric Idiosyncrasies in Multimodal Models

이 논문은 캡션 생성 모델이 뚜렷한 스타일적 특징을 보이지만, 이를 기반으로 생성된 이미지에서는 이러한 특징이 사라지는 비대칭적 현상을 체계적으로 분석하고, 이를 통해 캡션 모델의 스타일적 특성과 텍스트 - 이미지 생성 모델의 프롬프트 준수 능력을 정량화하는 새로운 방법론을 제시합니다.

Muzi Tao, Chufan Shi, Huijuan Wang + 2 more2026-02-27💻 cs

SceneTransporter: Optimal Transport-Guided Compositional Latent Diffusion for Single-Image Structured 3D Scene Generation

이 논문은 단일 이미지에서 구조화된 3D 장면을 생성하기 위해 엔트로피 최적 수송 (Optimal Transport) 을 활용하여 이미지 패치와 3D 부분 잠재 변수 간의 배타적 1 대 1 라우팅을 강제하고, 이를 통해 객체 간 응집성과 기하학적 정밀도를 크게 향상시킨 'SceneTransporter' 프레임워크를 제안합니다.

Ling Wang, Hao-Xiang Guo, Xinzhou Wang + 9 more2026-02-27💻 cs

Face Time Traveller : Travel Through Ages Without Losing Identity

이 논문은 생체 및 환경적 노화 단서를 인코딩하는 프롬프트 정제 전략, 튜닝이 불필요한 역방향 매핑 방법, 그리고 적응형 어텐션 제어 메커니즘을 도입하여 기존 방법들의 한계를 극복하고 신원 유지와 배경 일관성을 보장하는 고품질 얼굴 노화 변환 프레임워크인 'Face Time Traveller (FaceTT)'를 제안합니다.

Purbayan Kar, Ayush Ghadiya, Vishal Chudasama + 2 more2026-02-27💻 cs

CMSA-Net: Causal Multi-scale Aggregation with Adaptive Multi-source Reference for Video Polyp Segmentation

이 논문은 시간적 순서를 엄격히 준수하는 인과적 다중 스케일 집계 모듈과 예측 신뢰도에 기반한 동적 다중 소스 참조 전략을 도입하여, 내시경 영상에서 폴립의 위치 변화와 유사한 배경으로 인한 어려움을 극복하고 실시간 성능을 갖춘 최첨단 비디오 폴립 분할 모델인 CMSA-Net 을 제안합니다.

Tong Wang, Yaolei Qi, Siwen Wang + 3 more2026-02-27💻 cs

Reflectance Multispectral Imaging for Soil Composition Estimation and USDA Texture Classification

이 논문은 365nm~940nm 대역의 13 개 멀티스펙트럼 밴드를 활용하는 저비용 멀티스펙트럼 이미징 시스템과 머신러닝 프레임워크를 제안하여, 토양의 점토·실트·모래 함량과 USDA 토양 질감 분류를 각각 0.99 의 결정계수와 99% 이상의 정확도로 비파괴적으로 예측하는 현장 적용 가능한 방법을 제시합니다.

G. A. S. L Ranasinghe, J. A. S. T. Jayakody, M. C. L. De Silva + 5 more2026-02-27⚡ eess