cs.CV 편의 논문 | Gist.Science

SGG-R $^{\rm 3}$ : From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

이 논문은 MLLM 기반의 구조적 추론, 관계 증강 전략, 그리고 미세/대분류 보상 체계를 통합한 강화 학습 프레임워크인 SGG-R $^{\rm 3}$ 를 제안하여, 희소성과 편향 문제를 해결하고 종단간 편향 없는 장면 그래프 생성을 달성하는 방법을 제시합니다.

Jiaye Feng, Qixiang Yin, Yuankun Liu, Tong Mo, Weiping Li2026-03-10💻 cs

Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

이 논문은 언어만으로는 해결할 수 없는 지시적 상호작용의 공백을 메우기 위해, 말과 손짓의 시간적·공간적 정렬을 필수적으로 요구하는 새로운 평가 기준인 'EcoG-Bench'를 제안하고, 이를 통해 현재 멀티모달 모델들이 인간에 비해 지시어 기반의 상황적 이해에서 심각한 격차를 보이며, 특히 멀티모달 인터페이스의 한계가 시간적 정렬 정보의 관측을 저해할 수 있음을 밝혔습니다.

Weijie Zhou, Xuantang Xiong, Zhenlin Hu, Xiaomeng Zhu, Chaoyang Zhao, Honghui Dong, Zhengyou Zhang, Ming Tang, Jinqiao Wang2026-03-10💻 cs

Extend Your Horizon: A Device-Agnostic Surgical Tool Tracking Framework with Multi-View Optimization for Augmented Reality

이 논문은 가림 현상이 빈번한 수술 환경에서 다양한 센서와 동적 장면 그래프를 융합하여 증강현실 기반 수술 도구 추정의 견고성과 일관성을 향상시키는 장치 무관 프레임워크를 제안합니다.

Jiaming Zhang, Mingxu Liu, Hongchao Shu, Ruixing Liang, Yihao Liu, Ojas Taskar, Amir Kheradmand, Mehran Armand, Alejandro Martin-Gomez2026-03-10💻 cs

On the Feasibility and Opportunity of Autoregressive 3D Object Detection

이 논문은 앵커와 비최대 억제 (NMS) 와 같은 수동 설계 요소 없이 LiDAR 기반 3D 객체 탐지를 시퀀스 생성 문제로 재정의하여 근거리에서 원거리로 순차적으로 객체를 생성하는 'AutoReg3D'를 제안하고, 이를 통해 기존 모델과 경쟁력 있는 성능을 달성하면서도 언어 모델의 최신 기법을 3D 인식에 적용할 수 있는 가능성을 보여줍니다.

Zanming Huang, Jinsu Yoo, Sooyoung Jeon, Zhenzhen Liu, Mark Campbell, Kilian Q Weinberger, Bharath Hariharan, Wei-Lun Chao, Katie Z Luo2026-03-10💻 cs

TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

이 논문은 단일 분산 정책으로 다양한 팀 크기와 물체 기하학적 구조를 가진 인간 - 물체 상호작용 (HOI) 을 가능하게 하는 Transformer 기반의 TeamHOI 프레임워크를 제안하며, 단일 인간 모션을 기반으로 한 마스킹된 적대적 운동 우선순위 (AMP) 전략과 형성 보상을 통해 현실적이고 일관된 협력 행동을 학습합니다.

Stefan Lionar, Gim Hee Lee2026-03-10💻 cs

AutoTraces: Autoregressive Trajectory Forecasting via Multimodal Large Language Models

이 논문은 대형 언어 모델 (LLM) 의 추론 능력을 활용하고 새로운 궤적 토큰화 기법과 자동화된 사고 연쇄 (CoT) 생성 메커니즘을 도입하여, 인간이 거주하는 환경에서 로봇의 장기 궤적 예측 정확도와 일반화 성능을 획기적으로 개선한 'AutoTraces'를 제안합니다.

Teng Wang, Yanting Lu, Ruize Wang2026-03-10💻 cs

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

이 논문은 기존 항공 비전 - 언어 항법 (VLN) 방법의 공간 추론 및 언어적 모호성 문제를 해결하기 위해 추가 학습 없이 이미지 평면에서 직접 추론할 수 있는 시각 - 공간 추론 (ViSA) 강화 프레임워크를 제안하고, CityNav 벤치마크에서 기존 최첨단 방법 대비 성공률을 70.3% 향상시킨 결과를 입증했습니다.

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

이 논문은 현실 세계의 다양한 환경에서 시계 읽기 능력을 향상시키기 위해 실제 시계 데이터를 포함한 'TickTockVQA' 데이터셋과 모델의 추론을 정렬하는 'Swap-DPO' 미세조정 프레임워크를 제안합니다.

Jaeha Choi, Jin Won Lee, Siwoo You, Jangho Lee2026-03-10💻 cs

Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared

이 논문은 적외선 (IR) 데이터가 누락된 상황에서도 해석 가능한 공유 딕셔너리와 계수 도메인 추론을 활용하여 가시광선 이미지를 기반으로 적외선 정보를 추론하고 융합하는 새로운 프레임워크를 제안합니다.

Yafei Zhang, Meng Ma, Huafeng Li, Yu Liu2026-03-10💻 cs

VSDiffusion: Taming Ill-Posed Shadow Generation via Visibility-Constrained Diffusion

이 논문은 복잡한 장면에서 기하학적 일관성을 유지하며 사실적인 그림자를 생성하기 위해 가시성 사전 지식을 통합한 2 단계 프레임워크인 VSDiffusion 을 제안하고, DESOBAv2 데이터셋에서 새로운 최첨단 성능을 달성했다고 요약할 수 있습니다.

Jing Li, Jing Zhang2026-03-10💻 cs

AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis

이 논문은 3D 객체 기하학과 텍스트 지시 간의 모달리티 격차를 해소하고 물리적 안정성과 의미론적 일관성을 갖춘 인간 잡기 자세를 생성하기 위해, 정교한 언어 라벨링 파이프라인과 affordance 인지 잠재 표현을 통합한 확산 기반 프레임워크인 AffordGrasp 을 제안합니다.

Xiaofei Wu, Yi Zhang, Yumeng Liu, Yuexin Ma, Yujiao Shi, Xuming He2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

이 논문은 Mamba 기반 확산 모델과 가우시안 기반 비트 표현을 도입하여 기존 트랜스포머 기반 방법의 한계를 극복하고, 음악의 리듬과 비트에 정확히 동기화된 고품질 춤 동작을 생성하는 'MambaDance'를 제안합니다.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

이 논문은 자연어 설명을 복잡한 2D 동작 시퀀스로 변환하는 자동회귀 모델과 참조 이미지 및 생성된 스켈레톤을 기반으로 고품질 비디오를 합성하는 포지션 기반 확산 모델을 결합한 2 단계 캐스케이드 프레임워크를 제안하여, 기존 텍스트 기반 방법의 정밀도 부족과 포지션 기반 방법의 데이터 수집 비용 문제를 동시에 해결하고 복잡한 인간 동작 비디오 생성의 한계를 극복합니다.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed Bennamoun2026-03-10💻 cs

QualiTeacher: Quality-Conditioned Pseudo-Labeling for Real-World Image Restoration

이 논문은 불완전한 의사 레이블의 품질을 명시적으로 조건으로 활용하여 저품질 아티팩트의 모방을 방지하고 더 높은 품질의 복원 결과를 생성할 수 있도록 하는 새로운 'QualiTeacher' 프레임워크를 제안합니다.

Fengyang Xiao, Jingjia Feng, Peng Hu, Dingming Zhang, Lei Xu, Guanyi Qin, Lu Li, Chunming He, Sina Farsiu2026-03-10💻 cs

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

이 논문은 시각 및 오디오 모달리티의 손실과 클래스 불균형 문제를 해결하기 위해 안전 교차 주의 메커니즘과 모달리티 드롭아웃 전략을 도입한 강건한 멀티모달 프레임워크를 제안하여 ABAW 10 차 챌린지에서 60.79% 의 정확도를 달성한 내용을 담고 있습니다.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

← 이전 다음 →

cs.CV

SGG-R $^{\rm 3}$ : From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

Extend Your Horizon: A Device-Agnostic Surgical Tool Tracking Framework with Multi-View Optimization for Augmented Reality

On the Feasibility and Opportunity of Autoregressive 3D Object Detection

TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

AutoTraces: Autoregressive Trajectory Forecasting via Multimodal Large Language Models

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared

VSDiffusion: Taming Ill-Posed Shadow Generation via Visibility-Constrained Diffusion

AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

QualiTeacher: Quality-Conditioned Pseudo-Labeling for Real-World Image Restoration

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Speed3R: Sparse Feed-forward 3D Reconstruction Models

See and Switch: Vision-Based Branching for Interactive Robot-Skill Programming

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling

Evaluating Generative Models via One-Dimensional Code Distributions

cs.CV

SGG-R3^{\rm 3}3: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

Extend Your Horizon: A Device-Agnostic Surgical Tool Tracking Framework with Multi-View Optimization for Augmented Reality

On the Feasibility and Opportunity of Autoregressive 3D Object Detection

TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

AutoTraces: Autoregressive Trajectory Forecasting via Multimodal Large Language Models

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared

VSDiffusion: Taming Ill-Posed Shadow Generation via Visibility-Constrained Diffusion

AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

QualiTeacher: Quality-Conditioned Pseudo-Labeling for Real-World Image Restoration

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Speed3R: Sparse Feed-forward 3D Reconstruction Models

See and Switch: Vision-Based Branching for Interactive Robot-Skill Programming

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling

Evaluating Generative Models via One-Dimensional Code Distributions

SGG-R $^{\rm 3}$ : From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation