Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

이 논문은 언어만으로는 해결할 수 없는 지시적 상호작용의 공백을 메우기 위해, 말과 손짓의 시간적·공간적 정렬을 필수적으로 요구하는 새로운 평가 기준인 'EcoG-Bench'를 제안하고, 이를 통해 현재 멀티모달 모델들이 인간에 비해 지시어 기반의 상황적 이해에서 심각한 격차를 보이며, 특히 멀티모달 인터페이스의 한계가 시간적 정렬 정보의 관측을 저해할 수 있음을 밝혔습니다.

Weijie Zhou, Xuantang Xiong, Zhenlin Hu, Xiaomeng Zhu, Chaoyang Zhao, Honghui Dong, Zhengyou Zhang, Ming Tang, Jinqiao Wang2026-03-10💻 cs

Extend Your Horizon: A Device-Agnostic Surgical Tool Tracking Framework with Multi-View Optimization for Augmented Reality

이 논문은 가림 현상이 빈번한 수술 환경에서 다양한 센서와 동적 장면 그래프를 융합하여 증강현실 기반 수술 도구 추정의 견고성과 일관성을 향상시키는 장치 무관 프레임워크를 제안합니다.

Jiaming Zhang, Mingxu Liu, Hongchao Shu, Ruixing Liang, Yihao Liu, Ojas Taskar, Amir Kheradmand, Mehran Armand, Alejandro Martin-Gomez2026-03-10💻 cs

On the Feasibility and Opportunity of Autoregressive 3D Object Detection

이 논문은 앵커와 비최대 억제 (NMS) 와 같은 수동 설계 요소 없이 LiDAR 기반 3D 객체 탐지를 시퀀스 생성 문제로 재정의하여 근거리에서 원거리로 순차적으로 객체를 생성하는 'AutoReg3D'를 제안하고, 이를 통해 기존 모델과 경쟁력 있는 성능을 달성하면서도 언어 모델의 최신 기법을 3D 인식에 적용할 수 있는 가능성을 보여줍니다.

Zanming Huang, Jinsu Yoo, Sooyoung Jeon, Zhenzhen Liu, Mark Campbell, Kilian Q Weinberger, Bharath Hariharan, Wei-Lun Chao, Katie Z Luo2026-03-10💻 cs

TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

이 논문은 단일 분산 정책으로 다양한 팀 크기와 물체 기하학적 구조를 가진 인간 - 물체 상호작용 (HOI) 을 가능하게 하는 Transformer 기반의 TeamHOI 프레임워크를 제안하며, 단일 인간 모션을 기반으로 한 마스킹된 적대적 운동 우선순위 (AMP) 전략과 형성 보상을 통해 현실적이고 일관된 협력 행동을 학습합니다.

Stefan Lionar, Gim Hee Lee2026-03-10💻 cs

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

이 논문은 기존 항공 비전 - 언어 항법 (VLN) 방법의 공간 추론 및 언어적 모호성 문제를 해결하기 위해 추가 학습 없이 이미지 평면에서 직접 추론할 수 있는 시각 - 공간 추론 (ViSA) 강화 프레임워크를 제안하고, CityNav 벤치마크에서 기존 최첨단 방법 대비 성공률을 70.3% 향상시킨 결과를 입증했습니다.

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis

이 논문은 3D 객체 기하학과 텍스트 지시 간의 모달리티 격차를 해소하고 물리적 안정성과 의미론적 일관성을 갖춘 인간 잡기 자세를 생성하기 위해, 정교한 언어 라벨링 파이프라인과 affordance 인지 잠재 표현을 통합한 확산 기반 프레임워크인 AffordGrasp 을 제안합니다.

Xiaofei Wu, Yi Zhang, Yumeng Liu, Yuexin Ma, Yujiao Shi, Xuming He2026-03-10💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

이 논문은 자연어 설명을 복잡한 2D 동작 시퀀스로 변환하는 자동회귀 모델과 참조 이미지 및 생성된 스켈레톤을 기반으로 고품질 비디오를 합성하는 포지션 기반 확산 모델을 결합한 2 단계 캐스케이드 프레임워크를 제안하여, 기존 텍스트 기반 방법의 정밀도 부족과 포지션 기반 방법의 데이터 수집 비용 문제를 동시에 해결하고 복잡한 인간 동작 비디오 생성의 한계를 극복합니다.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed Bennamoun2026-03-10💻 cs

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

이 논문은 시각 및 오디오 모달리티의 손실과 클래스 불균형 문제를 해결하기 위해 안전 교차 주의 메커니즘과 모달리티 드롭아웃 전략을 도입한 강건한 멀티모달 프레임워크를 제안하여 ABAW 10 차 챌린지에서 60.79% 의 정확도를 달성한 내용을 담고 있습니다.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

이 논문은 강화 학습을 통해 전문적인 비전 - 언어 및 생성 에이전트 간의 협업을 조정하여 복잡한 사용자 지시를 정교하게 수행하는 새로운 다중 에이전트 이미지 편집 프레임워크인 ImageEdit-R1 을 제안하고, 기존 단일 모델 및 다른 다중 에이전트 방식보다 우수한 성능을 입증합니다.

Yiran Zhao, Yaoqi Ye, Xiang Liu, Michael Qizhe Shieh, Trung Bui2026-03-10💻 cs

Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling

이 논문은 LVLM(대형 시각 - 언어 모델) 의 능력을 활용하여 UAV 와 위성 이미지 간의 심층적 시각 - 의미 상관관계를 명시적으로 모델링하고, 부드러운 라벨을 사용하는 관계 인식 손실 함수를 도입함으로써 교차 뷰 UAV 지리 위치 추정 성능을 획기적으로 향상시키는 새로운 플러그 - 앤 - 플레이 순위 아키텍처를 제안합니다.

Bowen Liu, Pengyue Jia, Wanyu Wang, Derong Xu, Jiawei Cheng, Jiancheng Dong, Xiao Han, Zimo Zhao, Chao Zhang, Bowen Yu, Fangyu Hong, Xiangyu Zhao2026-03-10💻 cs