UETrack: A Unified and Efficient Framework for Single Object Tracking

본 논문은 RGB, 깊이, 열화상, 이벤트, 언어 등 다양한 모달리티를 효율적으로 처리하기 위해 토큰 풀링 기반의 혼합 전문가 메커니즘과 대상 인식 적응 증류 전략을 도입한 단일 객체 추적 프레임워크인 UETrack 을 제안하고, 다양한 벤치마크와 하드웨어에서 뛰어난 속도 - 정확도 균형을 입증합니다.

Ben Kang, Jie Zhao, Xin Chen + 5 more2026-03-04💻 cs

InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning

이 논문은 복잡한 다중 개체 장면에서 정밀한 이미지 편집을 위해 텍스트 기반 공간 추론과 시각적 그라운딩을 교차적으로 수행하는 'InterCoG' 프레임워크와 관련 데이터셋을 제안하여, 기존 모델이 해결하지 못했던 정밀한 위치 기반 편집 문제를 성공적으로 해결함을 보여줍니다.

Yecong Wan, Fan Li, Chunwei Wang + 3 more2026-03-04💻 cs

PromptStereo: Zero-Shot Stereo Matching via Structure and Motion Prompts

이 논문은 모노큘러 깊이 기반 모델의 디코더에 구조 및 운동 프롬프트를 통합한 새로운 반복 정제 모듈인 Prompt Recurrent Unit (PRU) 을 제안함으로써, 기존 방법들의 한계를 극복하고 여러 데이터셋에서 최첨단 제로샷 일반화 성능과 빠른 추론 속도를 달성하는 PromptStereo 를 소개합니다.

Xianqi Wang, Hao Yang, Hangtian Wang + 4 more2026-03-04💻 cs

Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy

이 논문은 감지, 이해, 상호작용의 인지적 위계를 기반으로 한 커리큘럼 학습 프레임워크인 P2E 와 함께, 22 억 파라미터 규모의 경량 멀티모달 언어 모델인 Nano-EmoX 를 제안하여 저수준 감지부터 고수준 공감까지의 간극을 해소하고 다양한 감정 태스크에서 최첨단 성능을 달성함을 보여줍니다.

Jiahao Huang, Fengyan Lin, Xuechao Yang + 4 more2026-03-04🤖 cs.AI

SimRecon: SimReady Compositional Scene Reconstruction from Real Videos

이 논문은 실제 비디오로부터 시뮬레이션 가능한 구성적 장면을 재구성하기 위해 '지각 - 생성 - 시뮬레이션' 파이프라인을 제안하고, 생성된 자산의 시각적 충실도와 물리적 타당성을 높이기 위해 능동적 시점 최적화 및 장면 그래프 합성기라는 두 가지 연결 모듈을 도입한 SimRecon 프레임워크를 소개합니다.

Chong Xia, Kai Zhu, Zizhuo Wang + 3 more2026-03-04💻 cs

OnlineX: Unified Online 3D Reconstruction and Understanding with Active-to-Stable State Evolution

이 논문은 스트리밍 이미지를 통해 3D 기하학과 언어 장을 실시간으로 재구성하는 'OnlineX' 프레임워크를 제안하며, 누적 드리프트 문제를 해결하기 위해 고주파 국부 기하를 포착하는 활성 상태와 장기 글로벌 구조를 보존하는 안정적 상태를 분리하고 융합하는 새로운 패러다임을 제시합니다.

Chong Xia, Fangfu Liu, Yule Wang + 2 more2026-03-04💻 cs

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

이 논문은 인간과 제품을 통합한 이미지 생성 시 제품 디테일의 고충실도 보존을 위해 공유 강화 어텐션과 디테일 인식 손실 함수를 도입하고, 새로운 HP-Image-40K 데이터셋을 구축하여 제안한 HiFi-Inpaint 프레임워크가 최첨단 성능을 달성함을 보여줍니다.

Yichen Liu, Donghao Zhou, Jie Wang + 9 more2026-03-04💻 cs

From Visual to Multimodal: Systematic Ablation of Encoders and Fusion Strategies in Animal Identification

이 논문은 190 만 장의 대규모 데이터셋을 기반으로 시각 및 텍스트 정보를 융합한 다중 모달 프레임워크를 제안하여, 합성된 의미적 설명을 시각 특징과 결합함으로써 기존 단모달 시스템 대비 11% 향상된 동물 식별 성능을 달성했음을 보여줍니다.

Vasiliy Kudryavtsev, Kirill Borodin, German Berezin + 3 more2026-03-04💻 cs

Beyond Prompt Degradation: Prototype-guided Dual-pool Prompting for Incremental Object Detection

이 논문은 증분 객체 탐지에서 프롬프트 결합 및 드리프트로 인한 성능 저하를 해결하기 위해, 공유 및 개인 풀을 활용한 프롬프트 분해 구조와 프로토타입 기반 가짜 라벨 생성 모듈을 도입한 PDP 프레임워크를 제안하여 MS-COCO 와 PASCAL VOC 에서 최첨단 성능을 달성했다고 요약할 수 있습니다.

Yaoteng Zhang, Zhou Qing, Junyu Gao + 1 more2026-03-04🤖 cs.AI

AutoFFS: Adversarial Deformations for Facial Feminization Surgery Planning

이 논문은 성전환 안면 성형술 (FFS) 의 계획에 정량적이고 재현 가능한 해부학적 지침을 제공하기 위해, 학습된 성별 분류기를 대상으로 하는 적대적 자유형 변형을 통해 반사실적 두개골 형태를 생성하는 새로운 데이터 기반 프레임워크인 AutoFFS 를 제안합니다.

Paul Friedrich, Florentin Bieder, Florian M. Thieringer + 1 more2026-03-04⚡ eess