Crab+^{+}: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

음시각적 작업의 이질성으로 인한 부정적 전이를 해결하기 위해 명시적 추론이 포함된 대규모 데이터셋 (AV-UIE v2) 과 작업 간 상호작용을 동적으로 조정하는 I-LoRA 아키텍처를 제안하여, 단일 작업 학습을 능가하는 포괄적인 오디오 - 비주얼 장면 이해 모델 Crab+^{+}를 개발했습니다.

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI

HBRB-BoW: A Retrained Bag-of-Words Vocabulary for ORB-SLAM via Hierarchical BRB-KMeans

이 논문은 ORB-SLAM 의 이진 시각 어휘 훈련 과정에서 발생하는 정밀도 손실 문제를 해결하기 위해, 계층적 클러스터링 과정에 전역 실수값 흐름을 통합하여 최종 단말 노드에서만 이진화를 수행하는 'HBRB-BoW' 알고리즘을 제안하고, 이를 통해 루프 닫기 및 재로컬라이제이션 성능을 향상시킵니다.

Minjae Lee, Sang-Min Choi, Gun-Woo Kim + 1 more2026-03-05💻 cs

Real5-OmniDocBench: A Full-Scale Physical Reconstruction Benchmark for Robust Document Parsing in the Wild

이 논문은 디지털 문서 벤치마크인 OmniDocBench 를 스캔, 왜곡, 화면 촬영, 조명, 기울기 등 5 가지 실제 물리적 환경에서 완전히 재구성한 'Real5-OmniDocBench'를 통해 비전 - 언어 모델의 현실 세계 문서 파싱 성능 격차를 정밀하게 진단하고 견고한 문서 지능 개발을 위한 새로운 기준을 제시합니다.

Changda Zhou, Ziyue Gao, Xueqing Wang + 4 more2026-03-05💻 cs

EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

이 논문은 스트리밍 이미지로부터 실시간으로 3D 재구성과 오픈-보캐불러리 의미 이해를 동시에 수행하는 온라인 피드-포워드 3D 가우시안 스플래팅 (EmbodiedSplat) 을 제안하며, 이를 위해 CLIP 임베딩을 3D 가우시안에 효율적으로 바인딩하고 3D 기하학적 사전 지식을 통합하는 새로운 아키텍처를 제시합니다.

Seungjun Lee, Zihan Wang, Yunsong Wang + 1 more2026-03-05💻 cs

SSR: A Generic Framework for Text-Aided Map Compression for Localization

이 논문은 대규모 언어 모델을 활용한 텍스트 설명과 매우 작은 이미지 특징 벡터를 결합하여 메모리 및 대역폭 비용을 줄이면서도 고정밀 로컬라이제이션을 가능하게 하는 '유사성 공간 복제 (SSR)'라는 새로운 지도 압축 프레임워크를 제안하고, 다양한 데이터셋에서 기존 방법보다 2 배 우수한 압축 성능을 입증합니다.

Mohammad Omama, Po-han Li, Harsh Goel + 6 more2026-03-05💻 cs