SGG-R3^{\rm 3}: From Next-Token Prediction to End-to-End Unbiased Scene Graph Generation

Die Arbeit stellt SGG-R³ vor, ein Framework, das durch eine Kombination aus chain-of-thought-gesteuertem Fine-Tuning mit Relationen-Augmentierung und einem neuartigen dualgranularen Belohnungsmechanismus im Reinforcement Learning eine end-to-end unvoreingenommene Szenengraph-Generierung mit verbesserter Abdeckung seltener Relationen ermöglicht.

Jiaye Feng, Qixiang Yin, Yuankun Liu, Tong Mo, Weiping Li2026-03-10💻 cs

Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time

Die Arbeit stellt mit EcoG-Bench ein strenges, mehrsprachiges Evaluierungsbenchmark für die egozentrische co-sprachliche Grounding vor, das zeigt, dass aktuelle multimodale Modelle aufgrund von Schnittstellenbeschränkungen bei der zeitlichen und räumlichen Verknüpfung von Sprache und Zeigegesten erheblich hinter menschlicher Leistung zurückbleiben.

Weijie Zhou, Xuantang Xiong, Zhenlin Hu, Xiaomeng Zhu, Chaoyang Zhao, Honghui Dong, Zhengyou Zhang, Ming Tang, Jinqiao Wang2026-03-10💻 cs

Extend Your Horizon: A Device-Agnostic Surgical Tool Tracking Framework with Multi-View Optimization for Augmented Reality

Diese Arbeit stellt ein geräteunabhängiges Framework vor, das durch die Fusion multipler Sensormodalitäten und die Schätzung der Verfolgungszuverlässigkeit in Echtzeit die robuste Verfolgung chirurgischer Instrumente in Augmented-Reality-Systemen auch bei häufigen Verdeckungen im Operationssaal ermöglicht.

Jiaming Zhang, Mingxu Liu, Hongchao Shu, Ruixing Liang, Yihao Liu, Ojas Taskar, Amir Kheradmand, Mehran Armand, Alejandro Martin-Gomez2026-03-10💻 cs

On the Feasibility and Opportunity of Autoregressive 3D Object Detection

Die Arbeit stellt AutoReg3D vor, einen autoregressiven 3D-Objektdetektor, der die LiDAR-basierte Detektion als Sequenzgenerierung in einer nah-zu-fern-Reihenfolge formuliert, wodurch aufwendige Komponenten wie Anker und Non-Maximum-Suppression entfallen und moderne Sprachmodell-Techniken für die 3D-Wahrnehmung nutzbar gemacht werden.

Zanming Huang, Jinsu Yoo, Sooyoung Jeon, Zhenzhen Liu, Mark Campbell, Kilian Q Weinberger, Bharath Hariharan, Wei-Lun Chao, Katie Z Luo2026-03-10💻 cs

AutoTraces: Autoregressive Trajectory Forecasting via Multimodal Large Language Models

Das Paper stellt AutoTraces vor, ein autoregressives Vision-Language-Trajectory-Modell, das die Schlussfolgerungsfähigkeiten großer Sprachmodelle durch eine neuartige Tokenisierung von Trajektorien und eine automatisierte Chain-of-Thought-Generierung nutzt, um die Vorhersage von Roboterbewegungen in menschlich besiedelten Umgebungen mit hoher Genauigkeit und Generalisierungsfähigkeit zu verbessern.

Teng Wang, Yanting Lu, Ruize Wang2026-03-10💻 cs

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

Die Arbeit stellt ViSA vor, ein Framework zur Verbesserung der aerialen Vision-Language-Navigation durch visuelle-räumliche Schlussfolgerung, das ohne Nachtraining von Sprachmodellen auskommt und auf dem CityNav-Benchmark eine 70,3%ige Steigerung der Erfolgsrate gegenüber dem aktuellen State-of-the-Art erzielt.

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

Die Studie stellt fest, dass aktuelle Vision-Language-Modelle beim Ablesen analoger Uhren in realen Umgebungen versagen, und adressiert dies durch die Einführung des vielfältigen Datensatzes TickTockVQA sowie des Fine-Tuning-Frameworks Swap-DPO, um die räumlich-zeitliche reasoning-Fähigkeit und Robustheit der Modelle erheblich zu verbessern.

Jaeha Choi, Jin Won Lee, Siwoo You, Jangho Lee2026-03-10💻 cs

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

Die Arbeit stellt MambaDance vor, einen neuartigen Ansatz zur Tanzgenerierung, der ein Mamba-basiertes Diffusionsmodell mit einer glockenförmigen Beat-Repräsentation kombiniert, um im Vergleich zu Transformer-basierten Methoden längere, rhythmisch präzisere und musikalisch synchronisierte Tanzbewegungen zu erzeugen.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

Die Arbeit stellt ein zweistufiges Framework vor, das durch die Generierung von Skelettsequenzen aus Text und deren nachfolgende Umwandlung in Videos mittels eines pose-gesteuerten Diffusionsmodells sowie die Bereitstellung eines synthetischen Datensatzes die Erzeugung von Videos komplexer menschlicher Bewegungen wie Akrobatik und Kampfkunst verbessert.

Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed Bennamoun2026-03-10💻 cs

QualiTeacher: Quality-Conditioned Pseudo-Labeling for Real-World Image Restoration

Das Papier stellt QualiTeacher vor, ein neuartiges Framework für die Bildrestauration in der realen Welt, das die Qualität von Pseudo-Labels durch eine konditionierte Überwachung und eine Kombination aus NR-IQA-Modellen, Multi-Augmentation und DPO-ähnlicher Präferenzoptimierung nutzt, um Artefakte zu vermeiden und Ergebnisse zu erzielen, die die Qualität des Lehrers übertreffen.

Fengyang Xiao, Jingjia Feng, Peng Hu, Dingming Zhang, Lei Xu, Guanyi Qin, Lu Li, Chunming He, Sina Farsiu2026-03-10💻 cs

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Diese Arbeit stellt ein robustes multimodales Framework mit sicherer Kreuz-Aufmerksamkeit und Modality-Dropout vor, das durch Fokussierung auf unvollständige Daten und Klassenungleichgewicht die Emotionserkennung im Rahmen der 10. ABAW-Herausforderung verbessert.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

See and Switch: Vision-Based Branching for Interactive Robot-Skill Programming

Der Artikel stellt „See & Switch" vor, ein interaktives Framework zur Roboterschulung durch Demonstration, das mithilfe von Aug-in-Hand-Kameras und einem bedingten Aufgabengraphen robuste Verzweigungen und Anomalieerkennung in Echtzeit ermöglicht, um komplexe Manipulationsaufgaben auch unter variierenden Bedingungen zuverlässig auszuführen.

Petr Vanc, Jan Kristof Behrens, Václav Hlaváč, Karla Stepanova2026-03-10💻 cs

Enhancing Cross-View UAV Geolocalization via LVLM-Driven Relational Modeling

Diese Arbeit stellt ein neuartiges, plug-and-play Ranking-Framework vor, das mithilfe von Large Vision-Language Models (LVLM) und einer relationalen Verlustfunktion die räumliche Geolokalisierung von UAV-Bildern durch eine explizite Modellierung der visuell-semantischen Korrelationen mit Satellitenbildern signifikant verbessert.

Bowen Liu, Pengyue Jia, Wanyu Wang, Derong Xu, Jiawei Cheng, Jiancheng Dong, Xiao Han, Zimo Zhao, Chao Zhang, Bowen Yu, Fangyu Hong, Xiangyu Zhao2026-03-10💻 cs

Evaluating Generative Models via One-Dimensional Code Distributions

Diese Arbeit stellt mit Codebook Histogram Distance und Code Mixture Model Score zwei neue, auf diskreten visuellen Token basierende Metriken zur Bewertung generativer Modelle vor, die in Kombination mit dem umfassenden VisForm-Benchmark eine überlegene Korrelation mit menschlichen Qualitätsurteilen im Vergleich zu herkömmlichen Merkmal-basierten Ansätzen erreichen.

Zexi Jia, Pengcheng Luo, Yijia Zhong, Jinchao Zhang, Jie Zhou2026-03-10💻 cs