SGG-R3^{\rm 3}: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

Il paper presenta SGG-R3^{\rm 3}, un framework di ragionamento strutturato che combina fine-tuning supervisionato guidato dal chain-of-thought e apprendimento per rinforzo con ottimizzazione della politica di sequenza di gruppo per generare scene graph end-to-end privi di bias, affrontando efficacemente le sfide della distribuzione a coda lunga e della scarsità delle relazioni.

Jiaye Feng, Qixiang Yin, Yuankun Liu, Tong Mo, Weiping Li2026-03-10💻 cs

Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

Il paper introduce EcoG e il relativo benchmark EcoG-Bench, un nuovo dataset bilingue e annotato in modo denso per valutare la capacità dei modelli linguistici multimodali di allineare comandi deittici a gesti di puntamento in contesti egocentrici, rivelando un significativo divario tra le prestazioni umane e quelle attuali dei modelli, spesso limitato da interfacce multimodali inadeguate piuttosto che dalla capacità di ragionamento.

Weijie Zhou, Xuantang Xiong, Zhenlin Hu, Xiaomeng Zhu, Chaoyang Zhao, Honghui Dong, Zhengyou Zhang, Ming Tang, Jinqiao Wang2026-03-10💻 cs

Extend Your Horizon: A Device-Agnostic Surgical Tool Tracking Framework with Multi-View Optimization for Augmented Reality

Questo lavoro presenta un framework di tracciamento degli strumenti chirurgici per la realtà aumentata che, integrando multiple modalità sensoriali e un grafo di scena dinamico, supera le limitazioni delle linee di vista tradizionali garantendo una visualizzazione robusta e coerente anche in presenza di frequenti occlusioni tipiche degli ambienti operatorii.

Jiaming Zhang, Mingxu Liu, Hongchao Shu, Ruixing Liang, Yihao Liu, Ojas Taskar, Amir Kheradmand, Mehran Armand, Alejandro Martin-Gomez2026-03-10💻 cs

On the Feasibility and Opportunity of Autoregressive 3D Object Detection

Il paper presenta AutoReg3D, un rilevatore 3D autoregressivo che formula il rilevamento di oggetti come generazione di sequenze per eliminare la necessità di anchor e NMS, sfruttando un ordinamento causale da vicino a lontano per abilitare l'addestramento semplificato e l'integrazione di avanzamenti dei modelli linguistici nella percezione 3D.

Zanming Huang, Jinsu Yoo, Sooyoung Jeon, Zhenzhen Liu, Mark Campbell, Kilian Q Weinberger, Bharath Hariharan, Wei-Lun Chao, Katie Z Luo2026-03-10💻 cs

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

Il paper propone ViSA, un framework potenziato dal ragionamento visivo-spaziale che permette ai modelli visione-linguaggio di navigare direttamente su immagini aeree senza addestramento aggiuntivo, ottenendo un miglioramento del 70,3% nel tasso di successo rispetto agli stati dell'arte esistenti sul benchmark CityNav.

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared

Il paper propone un nuovo framework guidato da dizionario per la fusione di immagini infrarosso-visibili in assenza di dati infrarossi, che apprende una rappresentazione condivisa e inferisce coefficienti IR tramite un modello linguistico per migliorare la qualità percettiva e le prestazioni di rilevamento senza ricorrere a generazione incontrollata nello spazio dei pixel.

Yafei Zhang, Meng Ma, Huafeng Li, Yu Liu2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Il paper presenta MambaDance, un nuovo approccio per la generazione di danza che sostituisce i modelli Transformer con un'architettura di diffusione basata su Mamba e utilizza una rappresentazione dei battiti musicali di tipo gaussiano per produrre movimenti realistici e sincronizzati con la musica su sequenze di qualsiasi durata.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

Il paper propone un framework a due stadi che combina un modello autoregressivo testo-ossa per generare sequenze di pose da descrizioni testuali e un modello di diffusione video condizionato alle pose con un encoder di riferimento adattivo, superando le limitazioni dei metodi attuali nella generazione di video complessi di movimento umano e introducendo un nuovo dataset sintetico per colmare la carenza di dati su acrobazie e movimenti dinamici.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed Bennamoun2026-03-10💻 cs

QualiTeacher: Quality-Conditioned Pseudo-Labeling for Real-World Image Restoration

Il paper presenta QualiTeacher, un nuovo framework per il ripristino di immagini nel mondo reale che trasforma i pseudo-label imperfetti in segnali di supervisione condizionati alla qualità, permettendo al modello studente di apprendere un manifold di ripristino graduato che evita di imitare artefatti e genera risultati superiori rispetto al modello insegnante.

Fengyang Xiao, Jingjia Feng, Peng Hu, Dingming Zhang, Lei Xu, Guanyi Qin, Lu Li, Chunming He, Sina Farsiu2026-03-10💻 cs

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Questa paper propone un framework multimodale robusto basato su un'architettura Transformer con attenzione incrociata sicura e dropout modale, che affronta le sfide dell'occlusione, della mancanza di modalità e dello sbilanciamento delle classi nel riconoscimento delle emozioni, ottenendo un'accuratezza del 60,79% sulla sfida ABAW.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

Il paper presenta ImageEdit-R1, un framework multi-agente che utilizza l'apprendimento per rinforzo per coordinare agenti specializzati nella comprensione delle intenzioni, nell'identificazione delle aree di interesse e nella sintesi visiva, superando così i limiti dei modelli monolitici nell'esecuzione di edizioni complesse e contestuali delle immagini.

Yiran Zhao, Yaoqi Ye, Xiang Liu, Michael Qizhe Shieh, Trung Bui2026-03-10💻 cs

Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling

Il paper propone un'architettura di ranking plug-and-play basata su un Large Vision-Language Model (LVLM) e una funzione di perdita relazionale-aware per migliorare la geolocalizzazione delle immagini UAV allineandole con database satellitari attraverso una modellazione congiunta delle relazioni visive e semantiche.

Bowen Liu, Pengyue Jia, Wanyu Wang, Derong Xu, Jiawei Cheng, Jiancheng Dong, Xiao Han, Zimo Zhao, Chao Zhang, Bowen Yu, Fangyu Hong, Xiangyu Zhao2026-03-10💻 cs