cs.CV articoli | Gist.Science

SGG-R $^{\rm 3}$ : From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

Il paper presenta SGG-R $^{\rm 3}$ , un framework di ragionamento strutturato che combina fine-tuning supervisionato guidato dal chain-of-thought e apprendimento per rinforzo con ottimizzazione della politica di sequenza di gruppo per generare scene graph end-to-end privi di bias, affrontando efficacemente le sfide della distribuzione a coda lunga e della scarsità delle relazioni.

Jiaye Feng, Qixiang Yin, Yuankun Liu, Tong Mo, Weiping Li2026-03-10💻 cs

Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

Il paper introduce EcoG e il relativo benchmark EcoG-Bench, un nuovo dataset bilingue e annotato in modo denso per valutare la capacità dei modelli linguistici multimodali di allineare comandi deittici a gesti di puntamento in contesti egocentrici, rivelando un significativo divario tra le prestazioni umane e quelle attuali dei modelli, spesso limitato da interfacce multimodali inadeguate piuttosto che dalla capacità di ragionamento.

Weijie Zhou, Xuantang Xiong, Zhenlin Hu, Xiaomeng Zhu, Chaoyang Zhao, Honghui Dong, Zhengyou Zhang, Ming Tang, Jinqiao Wang2026-03-10💻 cs

Extend Your Horizon: A Device-Agnostic Surgical Tool Tracking Framework with Multi-View Optimization for Augmented Reality

Questo lavoro presenta un framework di tracciamento degli strumenti chirurgici per la realtà aumentata che, integrando multiple modalità sensoriali e un grafo di scena dinamico, supera le limitazioni delle linee di vista tradizionali garantendo una visualizzazione robusta e coerente anche in presenza di frequenti occlusioni tipiche degli ambienti operatorii.

Jiaming Zhang, Mingxu Liu, Hongchao Shu, Ruixing Liang, Yihao Liu, Ojas Taskar, Amir Kheradmand, Mehran Armand, Alejandro Martin-Gomez2026-03-10💻 cs

On the Feasibility and Opportunity of Autoregressive 3D Object Detection

Il paper presenta AutoReg3D, un rilevatore 3D autoregressivo che formula il rilevamento di oggetti come generazione di sequenze per eliminare la necessità di anchor e NMS, sfruttando un ordinamento causale da vicino a lontano per abilitare l'addestramento semplificato e l'integrazione di avanzamenti dei modelli linguistici nella percezione 3D.

Zanming Huang, Jinsu Yoo, Sooyoung Jeon, Zhenzhen Liu, Mark Campbell, Kilian Q Weinberger, Bharath Hariharan, Wei-Lun Chao, Katie Z Luo2026-03-10💻 cs

TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

Il paper presenta TeamHOI, un framework che utilizza una politica decentralizzata basata su Transformer e una strategia di Adversarial Motion Prior mascherata per abilitare un singolo agente di controllo a gestire interazioni cooperative uomo-oggetto realistiche e scalabili con un numero variabile di agenti.

Stefan Lionar, Gim Hee Lee2026-03-10💻 cs

AutoTraces: Autoregressive Trajectory Forecasting via Multimodal Large Language Models

Il paper presenta AutoTraces, un modello autoregressivo multimodale che sfrutta le capacità di ragionamento dei grandi modelli linguistici e una nuova tokenizzazione delle traiettorie per prevedere con stato dell'arte il movimento umano in ambienti popolati, eliminando la necessità di annotazioni manuali.

Teng Wang, Yanting Lu, Ruize Wang2026-03-10💻 cs

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

Il paper propone ViSA, un framework potenziato dal ragionamento visivo-spaziale che permette ai modelli visione-linguaggio di navigare direttamente su immagini aeree senza addestramento aggiuntivo, ottenendo un miglioramento del 70,3% nel tasso di successo rispetto agli stati dell'arte esistenti sul benchmark CityNav.

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

Il paper introduce TickTockVQA, un dataset annotato da umani di orologi analogici in scenari reali, e Swap-DPO, un framework di ottimizzazione, per migliorare la capacità dei modelli visione-linguaggio di leggere l'ora e ragionare sullo spazio-tempo in condizioni del mondo reale.

Jaeha Choi, Jin Won Lee, Siwoo You, Jangho Lee2026-03-10💻 cs

Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared

Il paper propone un nuovo framework guidato da dizionario per la fusione di immagini infrarosso-visibili in assenza di dati infrarossi, che apprende una rappresentazione condivisa e inferisce coefficienti IR tramite un modello linguistico per migliorare la qualità percettiva e le prestazioni di rilevamento senza ricorrere a generazione incontrollata nello spazio dei pixel.

Yafei Zhang, Meng Ma, Huafeng Li, Yu Liu2026-03-10💻 cs

VSDiffusion: Taming Ill-Posed Shadow Generation via Visibility-Constrained Diffusion

Il paper propone VSDiffusion, un framework a due stadi basato su diffusione e vincoli di visibilità che risolve il problema mal posto della generazione di ombre realistiche per oggetti inseriti in immagini, ottenendo risultati all'avanguardia sul dataset DESOBAv2.

Jing Li, Jing Zhang2026-03-10💻 cs

AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis

Il paper presenta AffordGrasp, un framework basato sulla diffusione che genera pose di presa umane fisicamente stabili e semanticamente fedeli, colmando il divario tra rappresentazioni 3D degli oggetti e istruzioni testuali attraverso un processo di condizionamento duale e un'annotazione automatizzata delle interazioni.

Xiaofei Wu, Yi Zhang, Yumeng Liu, Yuexin Ma, Yujiao Shi, Xuming He2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Il paper presenta MambaDance, un nuovo approccio per la generazione di danza che sostituisce i modelli Transformer con un'architettura di diffusione basata su Mamba e utilizza una rappresentazione dei battiti musicali di tipo gaussiano per produrre movimenti realistici e sincronizzati con la musica su sequenze di qualsiasi durata.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

Il paper propone un framework a due stadi che combina un modello autoregressivo testo-ossa per generare sequenze di pose da descrizioni testuali e un modello di diffusione video condizionato alle pose con un encoder di riferimento adattivo, superando le limitazioni dei metodi attuali nella generazione di video complessi di movimento umano e introducendo un nuovo dataset sintetico per colmare la carenza di dati su acrobazie e movimenti dinamici.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed Bennamoun2026-03-10💻 cs

QualiTeacher: Quality-Conditioned Pseudo-Labeling for Real-World Image Restoration

Il paper presenta QualiTeacher, un nuovo framework per il ripristino di immagini nel mondo reale che trasforma i pseudo-label imperfetti in segnali di supervisione condizionati alla qualità, permettendo al modello studente di apprendere un manifold di ripristino graduato che evita di imitare artefatti e genera risultati superiori rispetto al modello insegnante.

Fengyang Xiao, Jingjia Feng, Peng Hu, Dingming Zhang, Lei Xu, Guanyi Qin, Lu Li, Chunming He, Sina Farsiu2026-03-10💻 cs

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Questa paper propone un framework multimodale robusto basato su un'architettura Transformer con attenzione incrociata sicura e dropout modale, che affronta le sfide dell'occlusione, della mancanza di modalità e dello sbilanciamento delle classi nel riconoscimento delle emozioni, ottenendo un'accuratezza del 60,79% sulla sfida ABAW.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

Speed3R: Sparse Feed-forward 3D Reconstruction Models

Speed3R è un modello di ricostruzione 3D feed-forward che supera i colli di bottiglia computazionali delle architetture dense utilizzando un meccanismo di attenzione duale ispirato alla Structure-from-Motion, ottenendo un'accelerazione di 12,4 volte con un compromesso minimo nella precisione geometrica.

Weining Ren, Xiao Tan, Kai Han2026-03-10💻 cs

See and Switch: Vision-Based Branching for Interactive Robot-Skill Programming

Il paper presenta "See & Switch", un framework interattivo per la programmazione robotica tramite dimostrazione che utilizza la visione artificiale per selezionare dinamicamente i rami di esecuzione e rilevare contesti anomali, permettendo un adattamento robusto a scenari reali complessi.

Petr Vanc, Jan Kristof Behrens, Václav Hlaváč, Karla Stepanova2026-03-10💻 cs

ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning

Il paper presenta ImageEdit-R1, un framework multi-agente che utilizza l'apprendimento per rinforzo per coordinare agenti specializzati nella comprensione delle intenzioni, nell'identificazione delle aree di interesse e nella sintesi visiva, superando così i limiti dei modelli monolitici nell'esecuzione di edizioni complesse e contestuali delle immagini.

Yiran Zhao, Yaoqi Ye, Xiang Liu, Michael Qizhe Shieh, Trung Bui2026-03-10💻 cs

Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling

Il paper propone un'architettura di ranking plug-and-play basata su un Large Vision-Language Model (LVLM) e una funzione di perdita relazionale-aware per migliorare la geolocalizzazione delle immagini UAV allineandole con database satellitari attraverso una modellazione congiunta delle relazioni visive e semantiche.

Bowen Liu, Pengyue Jia, Wanyu Wang, Derong Xu, Jiawei Cheng, Jiancheng Dong, Xiao Han, Zimo Zhao, Chao Zhang, Bowen Yu, Fangyu Hong, Xiangyu Zhao2026-03-10💻 cs

Evaluating Generative Models via One-Dimensional Code Distributions

Il paper propone una nuova metodologia di valutazione per i modelli generativi basata su metriche nello spazio dei token visivi discreti, introducendo CHD e CMMS, e presenta il benchmark VisForm per dimostrare che questi approcci superano le metriche tradizionali raggiungendo una correlazione superiore con i giudizi umani.

Zexi Jia, Pengcheng Luo, Yijia Zhong, Jinchao Zhang, Jie Zhou2026-03-10💻 cs

← Precedente Successivo →

cs.CV

SGG-R3^{\rm 3}3: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation