QD-PCQA: Quality-Aware Domain Adaptation for Point Cloud Quality Assessment

이 논문은 이미지에서 학습한 품질 지식을 무감독 도메인 적응을 통해 포인트 클라우드에 전이하는 새로운 프레임워크인 QD-PCQA 를 제안하며, 순위 가중 조건 정렬과 품질 기반 특징 증강 전략을 통해 무참조 포인트 클라우드 품질 평가의 일반화 성능을 획기적으로 개선합니다.

Guohua Zhang, Jian Jin, Meiqin Liu + 2 more2026-03-05💻 cs

PROSPECT: Unified Streaming Vision-Language Navigation via Semantic--Spatial Fusion and Latent Predictive Representation

이 논문은 CUT3R 기반의 공간 인코더와 SigLIP 의 의미적 특징을 융합하고 잠재 예측 표현 학습을 통해 환경 역학을 모델링함으로써, 장기적 견고성과 실시간 성능을 동시에 확보한 통합 스트리밍 비전 - 언어 항법 에이전트 'PROSPECT'를 제안합니다.

Zehua Fan, Wenqi Lyu, Wenxuan Song + 12 more2026-03-05🤖 cs.AI

DAGE: Dual-Stream Architecture for Efficient and Fine-Grained Geometry Estimation

DAGE 는 저해상도 스트림을 통해 전역적 일관성과 카메라 포즈를 효율적으로 추정하고 고해상도 스트림으로 세밀한 구조를 보존하며 경량 어댑터로 두 스트림을 융합하는 듀얼 스트림 트랜스포머 아키텍처를 제안하여, 고해상도 비디오 및 다중 뷰 입력에 대한 기하학적 추정 및 재구성 성능을 획기적으로 개선했습니다.

Tuan Duc Ngo, Jiahui Huang, Seoung Wug Oh + 4 more2026-03-05💻 cs

Seeing as Experts Do: A Knowledge-Augmented Agent for Open-Set Fine-Grained Visual Understanding

이 논문은 폐쇄된 분류 체계를 넘어 오픈셋 환경에서 전문가처럼 시각적 증거와 외부 지식을 결합하여 추론하는 'KFRA'라는 새로운 에이전트 프레임워크를 제안하고, 이를 평가하기 위한 FGExpertBench 벤치마크를 통해 기존 모델 대비 뛰어난 성능과 해석 가능성을 입증합니다.

Junhan Chen, Zilu Zhou, Yujun Tong + 3 more2026-03-05💻 cs

Small Object Detection in Complex Backgrounds with Multi-Scale Attention and Global Relation Modeling

이 논문은 복잡한 배경에서의 소형 객체 검출 성능을 향상시키기 위해 잔류 하르 웨이블릿 다운샘플링, 글로벌 관계 모델링, 교차 스케일 하이브리드 어텐션, 그리고 센터 보조 손실 함수를 통합한 새로운 프레임워크를 제안하고 RGBT-Tiny 벤치마크에서 기존 최첨단 방법들을 능가하는 성능을 입증했습니다.

Wenguang Tao, Xiaotian Wang, Tian Yan + 2 more2026-03-05💻 cs

Adaptive Enhancement and Dual-Pooling Sequential Attention for Lightweight Underwater Object Detection with YOLOv10

이 논문은 빛의 흡수 및 산란으로 인한 시각적 열화 문제를 해결하기 위해 YOLOv10 아키텍처에 다단계 적응적 향상 모듈, 이중 풀링 순차 어텐션 메커니즘, 그리고 FGIoU 손실 함수를 통합하여, 제한된 자원을 가진 환경에서도 높은 정확도와 실시간 성능을 동시에 달성하는 경량 수중 객체 탐지 프레임워크를 제안합니다.

Md. Mushibur Rahman, Umme Fawzia Rahim, Enam Ahmed Taufik2026-03-05💻 cs

Structure-aware Prompt Adaptation from Seen to Unseen for Open-Vocabulary Compositional Zero-Shot Learning

이 논문은 기존에 학습된 개념과 유사한 의미의 미학습 개념 간의 구조적 일관성을 활용하여, 가시적 개념에서 비가시적 개념으로의 일반화를 가능하게 하는 '구조 인식 프롬프트 적응 (SPA)' 방법을 제안하여 개방형 어휘 구성 제로샷 학습의 성능을 크게 향상시킵니다.

Yihang Duan, Jiong Wang, Pengpeng Zeng + 5 more2026-03-05💻 cs

DeepScan: A Training-Free Framework for Visually Grounded Reasoning in Large Vision-Language Models

이 논문은 인간이 노이즈 환경에서 시각적 근거를 효과적으로 식별하고 추론하는 방식을 모방하여, 추가적인 학습 없이 계층적 스캐닝, 리포커싱, 증거 강화 추론을 결합한 'DeepScan' 프레임워크를 제안함으로써 대규모 시각 - 언어 모델의 시각적 근거 기반 추론 능력을 획기적으로 향상시킵니다.

Yangfu Li, Hongjian Zhan, Jiawei Chen + 3 more2026-03-05💻 cs