SO3UFormer: Learning Intrinsic Spherical Features for Rotation-Robust Panoramic Segmentation

이 논문은 실제 촬영 환경에서 발생하는 카메라 회전으로 인한 성능 저하를 해결하기 위해 절대 위도 인코딩 제거, 사분면 일관성 구면 어텐션, 게이지 인식 상대적 위치 메커니즘 등 세 가지 기하학적 기법을 도입하여 회전 불변성을 갖춘 SO3UFormer 모델을 제안하고, 이를 통해 기존 모델이 극심한 성능 저하를 겪는 회전 조건에서도 높은 분할 정확도를 유지함을 입증합니다.

Qinfeng Zhu, Yunxi Jiang, Lei Fan2026-02-27💻 cs

Towards Multimodal Domain Generalization with Few Labels

이 논문은 소량의 라벨만으로 다양한 도메인에서 강건한 멀티모달 모델을 학습하기 위한 새로운 문제인 '반지도식 멀티모달 도메인 일반화 (SSMDG)'를 제안하고, 일관성 정규화, 불일치 인식 정규화, 교차모달 프로토타입 정렬을 핵심으로 하는 통합 프레임워크와 벤치마크를 통해 기존 방법론의 한계를 극복함을 보여줍니다.

Hongzhao Li, Hao Dong, Hualei Wan + 3 more2026-02-27💻 cs

OSDaR-AR: Enhancing Railway Perception Datasets via Multi-modal Augmented Reality

이 논문은 시뮬레이션과 현실 간의 격차를 해소하고 안전 필수적인 철도 장애물 탐지 성능을 향상시키기 위해, Unreal Engine 5 와 LiDAR/INS/GNSS 데이터를 활용하여 OSDaR23 데이터셋에 고품질 가상 객체를 통합한 다중 모달 증강 현실 프레임워크와 공개 데이터셋 'OSDaR-AR'을 제안합니다.

Federico Nesti, Gianluca D'Amico, Mauro Marinoni + 1 more2026-02-27💻 cs

WaterVideoQA: ASV-Centric Perception and Rule-Compliant Reasoning via Multi-Modal Agents

이 논문은 자율 수면 선박 (ASV) 의 안전하고 정확한 항해를 위해 고안된 대규모 비디오 질문 답변 벤치마크 'WaterVideoQA'와 규제 준수 및 해석 가능한 의사결정을 가능하게 하는 신경-심볼릭 다중 에이전트 시스템 'NaviMind'를 제안하여, 수로 환경에서의 지능적이고 신뢰할 수 있는 상호작용의 새로운 패러다임을 제시합니다.

Runwei Guan, Shaofeng Liang, Ningwei Ouyang + 9 more2026-02-27💻 cs

Velocity and stroke rate reconstruction of canoe sprint team boats based on panned and zoomed video recordings

이 논문은 YOLOv8, U-net 기반 보정, 광학 흐름 추적 및 포즈 추정 기술을 활용하여 GPS 센서 없이도 팬 및 줌 영상으로부터 카누 스프린트 팀 보트의 속도와 스트로크 주기를 고정밀도로 자동 재구성하는 프레임워크를 제안하고, 엘리트 대회 데이터에서 GPS 측정값과 높은 상관관계를 입증했습니다.

Julian Ziegler, Daniel Matthes, Finn Gerdts + 5 more2026-02-27💻 cs

MM-NeuroOnco: A Multimodal Benchmark and Instruction Dataset for MRI-Based Brain Tumor Diagnosis

이 논문은 기존 데이터셋의 한계를 극복하기 위해 자동화 파이프라인을 활용해 24,726 개의 MRI 슬라이드와 20 만 개의 풍부한 지시문을 포함한 대규모 멀티모달 데이터셋 MM-NeuroOnco 와 평가 벤치마크 MM-NeuroOnco-Bench 를 구축하고, 이를 통해 미세 조정된 NeuroOnco-GPT 가 뇌종양 진단 정확도를 27% 향상시켰음을 입증합니다.

Feng Guo, Jiaxiang Liu, Yang Li + 2 more2026-02-27🤖 cs.AI

Can Agents Distinguish Visually Hard-to-Separate Diseases in a Zero-Shot Setting? A Pilot Study

이 논문은 시각적 특징이 매우 유사한 두 질환 (흑색종과 비정형 모반, 폐부종과 폐렴) 을 구별하는 제로샷 멀티모달 에이전트 성능을 평가하고, 대비적 조정 (contrastive adjudication) 기반 다중 에이전트 프레임워크가 정확도를 향상시켰으나 임상 적용에는 여전히 한계가 있음을 보여줍니다.

Zihao Zhao, Frederik Hauke, Juliana De Castilhos + 2 more2026-02-27💻 cs

UCM: Unifying Camera Control and Memory with Time-aware Positional Encoding Warping for World Models

이 논문은 시간 인식 위치 인코딩 왜곡 메커니즘을 통해 장기 기억과 정밀한 카메라 제어를 통합하고, 효율적인 듀얼 스트림 확산 트랜스포머와 포인트 클라우드 기반 렌더링을 활용한 데이터 큐레이션 전략을 도입함으로써, 장기간 장면 일관성과 고화질 비디오 생성의 정밀한 제어력을 획기적으로 향상시킨 UCM 프레임워크를 제안합니다.

Tianxing Xu, Zixuan Wang, Guangyuan Wang + 5 more2026-02-27💻 cs

An automatic counting algorithm for the quantification and uncertainty analysis of the number of microglial cells trainable in small and heterogeneous datasets

이 논문은 소규모 및 이질적인 데이터셋에서도 훈련 가능한 자동 커널 카운터 알고리즘을 제안하여, 수동 주석이 필요 없는 쥐의 척수 조직 내 미세아교세포 수를 정량화하고 예측 불확실성을 분석하는 방법을 제시합니다.

L. Martino, M. M. Garcia, P. S. Paradas + 1 more2026-02-27⚡ eess

Small Object Detection Model with Spatial Laplacian Pyramid Attention and Multi-Scale Features Enhancement in Aerial Images

본 논문은 항공 이미지 내의 작은 객체 검출 성능을 향상시키기 위해 ResNet-50 에 공간 라플라시안 피라미드 주의 (SLPA) 모듈을 도입하고, FPN 의 측면 연결부에 다중 스케일 특징 향상 모듈 (MSFEM) 을 적용하며, 특징 정렬을 위해 변형 합성곱을 활용한 새로운 검출 모델을 제안하고 VisDrone 과 DOTA 데이터셋에서 그 우수성을 입증했습니다.

Zhangjian Ji, Huijia Yan, Shaotong Qiao + 2 more2026-02-27💻 cs

D-FINE-seg: Object Detection and Instance Segmentation Framework with multi-backend deployment

이 논문은 D-FINE 아키텍처에 경량 마스크 헤드와 세그멘테이션 인식 학습 기법을 도입하여 실시간 객체 검출 및 인스턴스 세그멘테이션 성능을 향상시키고, ONNX, TensorRT, OpenVINO 등 다양한 백엔드에서의 최적화된 추론을 지원하는 오픈소스 프레임워크 D-FINE-seg 를 제안합니다.

Argo Saakyan, Dmitry Solntsev2026-02-27💻 cs

Align then Adapt: Rethinking Parameter-Efficient Transfer Learning in 4D Perception

이 논문은 4D 데이터의 부족과 전이 학습의 한계를 극복하기 위해 최적 수송 이론을 활용한 '정렬 (Align)' 단계와 효율적 어댑터를 통한 '적응 (Adapt)' 단계를 순차적으로 수행하는 새로운 파라미터 효율적 전이 학습 프레임워크인 PointATA 를 제안하여, 3D 사전 학습 모델을 4D 인식 작업에 효과적으로 적용할 수 있음을 보여줍니다.

Yiding Sun, Jihua Zhu, Haozhe Cheng + 4 more2026-02-27💻 cs

Locally Adaptive Decay Surfaces for High-Speed Face and Landmark Detection with Event Cameras

이 논문은 이벤트 카메라의 희소하고 비동기적인 출력을 처리할 때 공간적 구조와 모션 선명도 사이의 균형을 최적화하기 위해 지역적 신호 동역학에 따라 감쇠를 조절하는 '국소 적응형 감쇠 표면 (LADS)'을 제안하여, 기존 방법보다 높은 정확도로 얼굴 탐지 및 랜드마크 검출 성능을 향상시키고 더 가벼운 네트워크 구조로도 실시간 처리가 가능하도록 함을 보여줍니다.

Paul Kielty, Timothy Hanley, Peter Corcoran2026-02-27💻 cs