Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control

Die Arbeit stellt „Follow-Your-Shape" vor, ein training- und maskenfreies Framework, das mittels einer Trajektorien-Divergenz-Karte und einer geplanten KV-Injektion präzise Formänderungen in Bildern ermöglicht, ohne den Hintergrund zu beeinträchtigen, und durch die Einführung des ReShapeBench-Benchmarks eine rigorose Evaluierung für solche Aufgaben bietet.

Zeqian Long, Mingzhe Zheng, Kunyu Feng + 6 more2026-02-24💻 cs

FLUID: A Fine-Grained Lightweight Urban Signalized-Intersection Dataset of Dense Conflict Trajectories

Die Studie stellt FLUID vor, einen feinkörnigen, leichten Datensatz für dichtes Konfliktraumverhalten an städtischen signalisierten Kreuzungen, der über eine effiziente Drohnen-basierte Verarbeitungskette gewonnen wurde und umfassende Trajektorien, Verkehrszeichen sowie hochpräzise Konflikt- und Verletzungsinformationen für die Forschung im Bereich autonomes Fahren und Verkehrsmodellierung bereitstellt.

Yiyang Chen, Zhigang Wu, Guohong Zheng + 5 more2026-02-24💻 cs

Decoding Tourist Perception in Historic Urban Quarters with Multimodal Social Media Data: An AI-Based Framework and Evidence from Shanghai

Diese Studie stellt einen KI-gestützten, multimodalen Rahmen vor, der mithilfe von Social-Media-Daten und Straßenansichten touristische Wahrnehmungen in historischen Vierteln Shanghais analysiert, um Diskrepanzen zwischen der wahrgenommenen und der tatsächlichen Umgebung aufzudecken und so das Heritage-Management sowie die städtebauliche Gestaltung zu unterstützen.

Kaizhen Tan, Yufan Wu, Yuxuan Liu + 1 more2026-02-24🤖 cs.AI

Unleashing the Power of Discrete-Time State Representation: Ultrafast Target-based IMU-Camera Spatial-Temporal Calibration

Diese Arbeit stellt eine neuartige, extrem effiziente Methode zur räumlich-zeitlichen Kalibrierung von IMU-Kamera-Systemen vor, die durch den Einsatz diskreter Zustandsdarstellungen den hohen Rechenaufwand herkömmlicher kontinuierlicher Ansätze vermeidet und gleichzeitig eine präzise zeitliche Kalibrierung ermöglicht.

Junlin Song, Antoine Richard, Miguel Olivares-Mendez2026-02-24💻 cs

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

Das Paper stellt WAVE vor, ein bahnbrechendes, auf Multimodal-LLMs basierendes Embedding-Modell, das erstmals einen einheitlichen Raum für Text, Audio und Video schafft und durch eine hierarchische Fusionsstrategie sowie ein gemeinsames Multi-Task-Training state-of-the-art Ergebnisse in Aufgaben wie cross-modalem Retrieval und prompt-bewusster multimodaler Fragebeantwortung erzielt.

Changli Tang, Qinfan Xiao, Ke Mei + 3 more2026-02-24💻 cs

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

Die Arbeit stellt RewardMap vor, ein mehrstufiges Reinforcement-Learning-Framework mit einem difficulty-basierten Belohnungsdesign, das das Problem der spärlichen Belohnungen bei der feingranularen visuellen Schlussfolgerung in multimodalen Sprachmodellen löst und durch die Einführung des ReasonMap-Plus-Datensatzes sowie eine gestufte Trainingsstrategie signifikante Leistungsverbesserungen erzielt.

Sicheng Feng, Kaiwen Tuo, Song Wang + 3 more2026-02-24🤖 cs.AI