Remote Sensing Image Classification Using Deep Ensemble Learning

이 논문은 CNN 과 비전 트랜스포머 (ViT) 의 강점을 결합하되 중복된 특징 표현으로 인한 병목 현상을 해결하기 위해 4 개의 독립적 융합 모델의 출력을 앙상블하는 새로운 접근법을 제안하여, 원거리 감지 이미지 분류에서 기존 아키텍처보다 뛰어난 정확도와 계산 효율성을 달성했음을 보여줍니다.

Niful Islam, Md. Rayhan Ahmed, Nur Mohammad Fahad, Salekul Islam, A. K. M. Muzahidul Islam, Saddam Mukta, Swakkhar Shatabda2026-03-09🤖 cs.AI

VS3R: Robust Full-frame Video Stabilization via Deep 3D Reconstruction

이 논문은 피드포워드 3D 재구성과 생성형 비디오 확산 모델을 결합하여 기하학적 강건성과 전체 프레임 일관성을 동시에 확보하는 'VS3R' 프레임워크를 제안함으로써, 기존 방법들의 한계를 극복하고 다양한 카메라 모델에서 고품질의 강건한 비디오 안정화를 실현합니다.

Muhua Zhu, Xinhao Jin, Yu Zhang, Yifei Xue, Tie Ji, Yizhen Lao2026-03-09💻 cs

TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis

이 논문은 3D CT 스캔과 150 만 개의 CoT 라벨이 지정된 VQA 데이터를 기반으로 한 대규모 벤치마크 'TumorCoT'를 구축하고, 이를 통해 3D 영상 인코더와 임상 텍스트 이해를 결합한 'TumorChain' 프레임워크를 제안하여 종양 분석의 정확성과 추론의 추적 가능성을 향상시킨다는 내용을 담고 있습니다.

Sijing Li, Zhongwei Qiu, Jiang Liu, Wenqiao Zhang, Tianwei Lin, Yihan Xie, Jianxiang An, Boxiang Yun, Chenglin Yang, Jun Xiao, Guangyu Guo, Jiawen Yao, Wei Liu, Yuan Gao, Ke Yan, Weiwei Cao, Zhilin Zheng, Tony C. W. Mok, Kai Cao, Yu Shi, Jiuyu Zhang, Jian Zhou, Beng Chin Ooi, Yingda Xia, Ling Zhang2026-03-09💻 cs

PatchCue: Enhancing Vision-Language Model Reasoning with Patch-Based Visual Cues

이 논문은 기존 텍스트 기반 추론의 한계를 극복하고 인간의 지각 습관과 현대 VLM 의 패치 토큰화 입력 구조에 부합하는 패치 기반 시각 단서 (PatchCue) 를 도입하여, 냉간 시작 감독 미세 조정과 과정 기반 보상 강화 학습을 통해 VLM 의 시각 추론 능력을 획기적으로 향상시킨다는 내용을 담고 있습니다.

Yukun Qi, Pei Fu, Hang Li, Yuhan Liu, Chao Jiang, Bin Qin, Zhenbo Luo, Jian Luan2026-03-09💻 cs

Shifting Adaptation from Weight Space to Memory Space: A Memory-Augmented Agent for Medical Image Segmentation

이 논문은 의료 영상 분할의 도메인 간 일반화 문제를 해결하기 위해 가중치 공간이 아닌 메모리 공간으로 적응을 전환하여, 적은 통신 오버헤드로 연동 학습과 테스트 시간 적응을 가능하게 하는 'MemSeg-Agent'를 제안합니다.

Bowen Chen, Qiaohui Gao, Shaowen Wan, Shanhui Sun, Wei Liu, Xiang Li, Tianming Liu, Lin Zhao2026-03-09💻 cs

Systematic Evaluation of Novel View Synthesis for Video Place Recognition

이 논문은 5 개의 공개 데이터베이스와 7 가지 이미지 유사성 방법을 활용하여 비디오 장소 인식 (VPR) 에서 합성된 새로운 시점의 효과를 체계적으로 평가한 결과, 소규모 추가 시에는 시점 변화가 인식 성능을 향상시키지만 대규모 추가 시에는 추가된 뷰의 수와 데이터셋의 이미지 유형이 시점 변화 크기보다 더 중요한 영향을 미친다는 것을 밝혔습니다.

Muhammad Zawad Mahmud, Samiha Islam, Damian Lyons2026-03-09💻 cs

InnoAds-Composer: Efficient Condition Composition for E-Commerce Poster Generation

이 논문은 기존 다단계 파이프라인의 한계를 극복하고 주제, 텍스트, 스타일을 동시에 정밀하게 제어하여 전자상거래 포스터를 고품질로 생성하는 단일 단계 프레임워크인 'InnoAds-Composer'를 제안합니다.

Yuxin Qin, Ke Cao, Haowei Liu, Ao Ma, Fengheng Li, Honghe Zhu, Zheng Zhang, Run Ling, Wei Feng, Xuanhua He, Zhanjie Zhang, Zhen Guo, Haoyi Bian, Jingjing Lv, Junjie Shen, Ching Law2026-03-09💻 cs

CollabOD: Collaborative Multi-Backbone with Cross-scale Vision for UAV Small Object Detection

이 논문은 UAV 영상 내 작은 객체 검출의 어려움인 스케일 변화와 구조적 세부 정보 손실 문제를 해결하기 위해, 구조적 세부 정보 보존과 이질적 특징 스트림 정렬을 통해 정밀한 검출 성능을 유지하면서 경량화를 실현한 'CollabOD' 프레임워크를 제안합니다.

Xuecheng Bai, Yuxiang Wang, Chuanzhi Xu, Boyu Hu, Kang Han, Ruijie Pan, Xiaowei Niu, Xiaotian Guan, Liqiang Fu, Pengfei Ye2026-03-09💻 cs

Beyond Geometry: Artistic Disparity Synthesis for Immersive 2D-to-3D

이 논문은 기존 2D-to-3D 변환의 기하학적 정확성 중심 접근법의 한계를 지적하고, 영화적 의도를 반영한 '예술적 시차 합성 (Artistic Disparity Synthesis)' 패러다임을 제안하며, 이를 구현하는 Art3D 프레임워크와 평가 방법을 통해 몰입감 있는 3D 콘텐츠 생성의 새로운 방향을 제시합니다.

Ping Chen, Zezhou Chen, Xingpeng Zhang, Yanlin Qian, Huan Hu, Xiang Liu, Zipeng Wang, Xin Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian2026-03-09💻 cs

Pano3DComposer: Feed-Forward Compositional 3D Scene Generation from Single Panoramic Image

이 논문은 단일 파노라마 이미지로부터 360 도 3D 장면을 약 20 초 만에 생성하는 효율적인 피드-포워드 프레임워크인 Pano3DComposer 를 제안하며, 이를 위해 오프더셸 이미지 -3D 모델에서 생성된 객체를 세계 좌표계로 변환하는 플러그 - 앤 - 플레이 객체 - 월드 변환 예측기와 코어스 - 투 - 파인 정렬 메커니즘을 도입했습니다.

Zidian Qiu, Ancong Wu2026-03-09💻 cs

Towards Driver Behavior Understanding: Weakly-Supervised Risk Perception in Driving Scenes

이 논문은 운전자의 위험 인식과 맥락적 위험 평가를 위한 대규모 데이터셋 RAID 를 구축하고, 이를 활용하여 운전자의 의도된 기동과 반응을 기반으로 잠재적 위험원을 식별하는 약지도 학습 프레임워크를 제안하여 기존 최첨단 방법 대비 성능을 크게 향상시켰음을 보여줍니다.

Nakul Agarwal, Yi-Ting Chen, Behzad Dariush2026-03-09💻 cs

Beyond Static Frames: Temporal Aggregate-and-Restore Vision Transformer for Human Pose Estimation

이 논문은 비디오 시퀀스의 시간적 일관성을 활용하여 정적 프레임 기반의 한계를 극복하고, 관절 중심 시간 집계 (JTA) 와 글로벌 복원 어텐션 (GRA) 메커니즘을 도입한 TAR-ViTPose 를 제안함으로써 인간 자세 추정 성능과 실시간 처리 속도를 동시에 향상시켰습니다.

Hongwei Fang, Jiahang Cai, Xun Wang, Wenwu Yang2026-03-09💻 cs