cs.CV 편의 논문 | Gist.Science

SO3UFormer: Learning Intrinsic Spherical Features for Rotation-Robust Panoramic Segmentation

이 논문은 실제 촬영 환경에서 발생하는 카메라 회전으로 인한 성능 저하를 해결하기 위해 절대 위도 인코딩 제거, 사분면 일관성 구면 어텐션, 게이지 인식 상대적 위치 메커니즘 등 세 가지 기하학적 기법을 도입하여 회전 불변성을 갖춘 SO3UFormer 모델을 제안하고, 이를 통해 기존 모델이 극심한 성능 저하를 겪는 회전 조건에서도 높은 분할 정확도를 유지함을 입증합니다.

Qinfeng Zhu, Yunxi Jiang, Lei Fan2026-02-27💻 cs

Towards Multimodal Domain Generalization with Few Labels

이 논문은 소량의 라벨만으로 다양한 도메인에서 강건한 멀티모달 모델을 학습하기 위한 새로운 문제인 '반지도식 멀티모달 도메인 일반화 (SSMDG)'를 제안하고, 일관성 정규화, 불일치 인식 정규화, 교차모달 프로토타입 정렬을 핵심으로 하는 통합 프레임워크와 벤치마크를 통해 기존 방법론의 한계를 극복함을 보여줍니다.

Hongzhao Li, Hao Dong, Hualei Wan + 3 more2026-02-27💻 cs

Chain of Flow: A Foundational Generative Framework for ECG-to-4D Cardiac Digital Twins

이 논문은 단일 심전도 (ECG) 신호로부터 개인별 4 차원 심장 구조와 운동을 재구성하여 범용적인 심부 디지털 트윈을 구현하는 새로운 생성 프레임워크인 'Chain of Flow(COF)'를 제안합니다.

Haofan Wu, Nay Aung, Theodoros N. Arvanitis + 3 more2026-02-27💻 cs

OSDaR-AR: Enhancing Railway Perception Datasets via Multi-modal Augmented Reality

이 논문은 시뮬레이션과 현실 간의 격차를 해소하고 안전 필수적인 철도 장애물 탐지 성능을 향상시키기 위해, Unreal Engine 5 와 LiDAR/INS/GNSS 데이터를 활용하여 OSDaR23 데이터셋에 고품질 가상 객체를 통합한 다중 모달 증강 현실 프레임워크와 공개 데이터셋 'OSDaR-AR'을 제안합니다.

Federico Nesti, Gianluca D'Amico, Mauro Marinoni + 1 more2026-02-27💻 cs

WaterVideoQA: ASV-Centric Perception and Rule-Compliant Reasoning via Multi-Modal Agents

이 논문은 자율 수면 선박 (ASV) 의 안전하고 정확한 항해를 위해 고안된 대규모 비디오 질문 답변 벤치마크 'WaterVideoQA'와 규제 준수 및 해석 가능한 의사결정을 가능하게 하는 신경-심볼릭 다중 에이전트 시스템 'NaviMind'를 제안하여, 수로 환경에서의 지능적이고 신뢰할 수 있는 상호작용의 새로운 패러다임을 제시합니다.

Runwei Guan, Shaofeng Liang, Ningwei Ouyang + 9 more2026-02-27💻 cs

MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding

이 논문은 강화 학습을 통해 MLLM 과 경량 키 프레임 샘플러를 공동으로 진화시켜 긴 영상 이해 효율성을 극대화하는 MSJoE 프레임워크를 제안하고, 새로운 데이터셋과 다양한 벤치마크에서 기존 최강 방법 대비 1.1% 높은 정확도를 입증합니다.

Wenhui Tan, Xiaoyi Yu, Jiaze Li + 5 more2026-02-27💻 cs

pMoE: Prompting Diverse Experts Together Wins More in Visual Adaptation

이 논문은 다양한 도메인의 전문가 지식을 통합하는 'pMoE'라는 새로운 프롬프트 튜닝 방법을 제안하여, 47 개의 시각 적응 작업에서 기존 방법보다 뛰어난 성능과 효율성을 입증했습니다.

Shentong Mo, Xufang Luo, Dongsheng Li2026-02-27🤖 cs.AI

Velocity and stroke rate reconstruction of canoe sprint team boats based on panned and zoomed video recordings

이 논문은 YOLOv8, U-net 기반 보정, 광학 흐름 추적 및 포즈 추정 기술을 활용하여 GPS 센서 없이도 팬 및 줌 영상으로부터 카누 스프린트 팀 보트의 속도와 스트로크 주기를 고정밀도로 자동 재구성하는 프레임워크를 제안하고, 엘리트 대회 데이터에서 GPS 측정값과 높은 상관관계를 입증했습니다.

Julian Ziegler, Daniel Matthes, Finn Gerdts + 5 more2026-02-27💻 cs

Cross-Task Benchmarking of CNN Architectures

이 논문은 ResNet-18 기반의 다양한 어텐션 및 동적 컨볼루션 CNN 변형체들을 이미지 분류, 세그멘테이션, 시계열 분석 등 여러 태스크에서 비교 평가하여, 기존 CNN 보다 우수한 성능과 적응력을 입증하고 ODConv 의 효과성을 강조합니다.

Kamal Sherawat, Vikrant Bhati2026-02-27💻 cs

MM-NeuroOnco: A Multimodal Benchmark and Instruction Dataset for MRI-Based Brain Tumor Diagnosis

이 논문은 기존 데이터셋의 한계를 극복하기 위해 자동화 파이프라인을 활용해 24,726 개의 MRI 슬라이드와 20 만 개의 풍부한 지시문을 포함한 대규모 멀티모달 데이터셋 MM-NeuroOnco 와 평가 벤치마크 MM-NeuroOnco-Bench 를 구축하고, 이를 통해 미세 조정된 NeuroOnco-GPT 가 뇌종양 진단 정확도를 27% 향상시켰음을 입증합니다.

Feng Guo, Jiaxiang Liu, Yang Li + 2 more2026-02-27🤖 cs.AI

Can Agents Distinguish Visually Hard-to-Separate Diseases in a Zero-Shot Setting? A Pilot Study

이 논문은 시각적 특징이 매우 유사한 두 질환 (흑색종과 비정형 모반, 폐부종과 폐렴) 을 구별하는 제로샷 멀티모달 에이전트 성능을 평가하고, 대비적 조정 (contrastive adjudication) 기반 다중 에이전트 프레임워크가 정확도를 향상시켰으나 임상 적용에는 여전히 한계가 있음을 보여줍니다.

Zihao Zhao, Frederik Hauke, Juliana De Castilhos + 2 more2026-02-27💻 cs

UCM: Unifying Camera Control and Memory with Time-aware Positional Encoding Warping for World Models

이 논문은 시간 인식 위치 인코딩 왜곡 메커니즘을 통해 장기 기억과 정밀한 카메라 제어를 통합하고, 효율적인 듀얼 스트림 확산 트랜스포머와 포인트 클라우드 기반 렌더링을 활용한 데이터 큐레이션 전략을 도입함으로써, 장기간 장면 일관성과 고화질 비디오 생성의 정밀한 제어력을 획기적으로 향상시킨 UCM 프레임워크를 제안합니다.

Tianxing Xu, Zixuan Wang, Guangyuan Wang + 5 more2026-02-27💻 cs

An automatic counting algorithm for the quantification and uncertainty analysis of the number of microglial cells trainable in small and heterogeneous datasets

이 논문은 소규모 및 이질적인 데이터셋에서도 훈련 가능한 자동 커널 카운터 알고리즘을 제안하여, 수동 주석이 필요 없는 쥐의 척수 조직 내 미세아교세포 수를 정량화하고 예측 불확실성을 분석하는 방법을 제시합니다.

L. Martino, M. M. Garcia, P. S. Paradas + 1 more2026-02-27⚡ eess

SubspaceAD: Training-Free Few-Shot Anomaly Detection via Subspace Modeling

이 논문은 사전 학습된 비전 모델의 특징을 PCA 서브스페이스 모델링에 활용하여 메모리 뱅크나 추가 학습 없이도 소수의 정상 이미지만으로 산업적 이상 탐지에서 최첨단 성능을 달성하는 'SubspaceAD'라는 훈련 없는 방법을 제안합니다.

Camile Lendering, Erkut Akdag, Egor Bondarev2026-02-27🤖 cs.LG

Small Object Detection Model with Spatial Laplacian Pyramid Attention and Multi-Scale Features Enhancement in Aerial Images

본 논문은 항공 이미지 내의 작은 객체 검출 성능을 향상시키기 위해 ResNet-50 에 공간 라플라시안 피라미드 주의 (SLPA) 모듈을 도입하고, FPN 의 측면 연결부에 다중 스케일 특징 향상 모듈 (MSFEM) 을 적용하며, 특징 정렬을 위해 변형 합성곱을 활용한 새로운 검출 모델을 제안하고 VisDrone 과 DOTA 데이터셋에서 그 우수성을 입증했습니다.

Zhangjian Ji, Huijia Yan, Shaotong Qiao + 2 more2026-02-27💻 cs

← 이전 다음 →

cs.CV