UDVideoQA: A Traffic Video Question Answering Dataset for Multi-Object Spatio-Temporal Reasoning in Urban Dynamics

Die Arbeit stellt UDVideoQA vor, ein umfassendes Benchmark-Datenset mit 28.000 Frage-Antwort-Paaren aus anonymisierten Verkehrsvideos, das entwickelt wurde, um die Fähigkeiten von Video-Sprachmodellen beim räumlich-zeitlichen Mehr-Objekt-Reasoning und der kausalen Inferenz in urbanen Szenarien zu evaluieren und zu verbessern.

Joseph Raj Vishal, Nagasiri Poluri, Katha Naik + 7 more2026-02-25💻 cs

SynthRender and IRIS: Open-Source Framework and Dataset for Bidirectional Sim-Real Transfer in Industrial Object Perception

Diese Arbeit stellt das Open-Source-Framework SynthRender und den Datensatz IRIS vor, die durch synthetische Datengenerierung mit geleiteter Domänenrandomisierung und bidirektionale Sim-Real-Transfer-Techniken eine kostengünstige und robuste Objektwahrnehmung für industrielle Anwendungen ohne 3D-Modelle ermöglichen.

Jose Moises Araya-Martinez, Thushar Tom, Adrián Sanchis Reig + 3 more2026-02-25💻 cs

XMorph: Explainable Brain Tumor Analysis Via LLM-Assisted Hybrid Deep Intelligence

XMorph ist ein erklärbares und rechen-effizientes Framework, das mithilfe eines hybriden Deep-Learning-Ansatzes mit LLM-Unterstützung und einer informationsgewichteten Grenznormalisierung eine präzise Klassifizierung von Hirntumoren ermöglicht und dabei sowohl hohe Genauigkeit als auch klinisch interpretierbare Einblicke bietet.

Sepehr Salem Ghahfarokhi, M. Moein Esfahani, Raj Sunderraman + 2 more2026-02-25🤖 cs.AI

Mask-HybridGNet: Graph-based segmentation with emergent anatomical correspondence from pixel-level supervision

Die Arbeit stellt Mask-HybridGNet vor, ein Framework, das graphbasierte medizinische Bildsegmentierung durch direkte Schulung mit standardmäßigen Pixelmasken ermöglicht, wodurch die Notwendigkeit manueller Landmarken-Annotationen entfällt und gleichzeitig eine emergente, anatomisch konsistente Punktkorrespondenz über verschiedene Patienten hinweg erreicht wird.

Nicolás Gaggion, Maria J. Ledesma-Carbayo, Stergios Christodoulidis + 2 more2026-02-25💻 cs

Human Video Generation from a Single Image with 3D Pose and View Control

Das Paper stellt HVG vor, ein latentes Videodiffusionsmodell, das aus einem einzigen Bild hochwertige, 4D-konsistente menschliche Videos mit 3D-Pose- und Blicksteuerung generiert, indem es durch artikulierte Pose-Modulation, Ausrichtung von Ansicht und Zeit sowie progressive räumlich-zeitliche Abtastung Herausforderungen wie selbstverdeckte Falten und Mehransichtskonsistenz löst.

Tiantian Wang, Chun-Han Yao, Tao Hu + 3 more2026-02-25💻 cs

Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

Die Arbeit stellt „Reflective Test-Time Planning" vor, ein Framework für embodied LLMs, das durch die Integration von Reflexion während der Aktion, nach der Ausführung und retrospektiv die Fähigkeit zur Fehlerkorrektur und langfristigen Kreditvergabe verbessert, was in Langzeit-Haushalts- und Roboter-Benchmarks zu signifikanten Leistungssteigerungen führt.

Yining Hong, Huang Huang, Manling Li + 3 more2026-02-25💬 cs.CL

Multi-Vector Index Compression in Any Modality

Diese Arbeit stellt vier Methoden zur komprimierten Multi-Vektor-Indexierung vor, wobei die neu entwickelte, aufmerksamkeitsgesteuerte Clustering-Technik (AGC) auf Text-, Dokumenten- und Videodatenbeständen eine überlegene Effizienz und Genauigkeit bei der Reduzierung von Speicher- und Rechenkosten im Vergleich zu anderen Kompressionsansätzen und dem unkomprimierten Index demonstriert.

Hanxiang Qin, Alexander Martin, Rohan Jha + 3 more2026-02-25💬 cs.CL