RIVER: A Real-Time Interaction Benchmark for Video LLMs

Die Arbeit stellt RIVER Bench vor, ein neues Benchmark für die Echtzeit-Interaktion mit Video-LLMs, das durch die Einführung von Aufgaben zur retrospektiven Erinnerung, Live-Wahrnehmung und proaktiven Antizipation die Lücke zwischen Offline-Modellen und echtem interaktiven Dialog schließt und gleichzeitig eine allgemeine Verbesserungsmethode für langfristiges Gedächtnis und zukünftige Wahrnehmung bietet.

Yansong Shi, Qingsong Zhao, Tianxiang Jiang + 3 more2026-03-05💻 cs

When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models

Diese Arbeit stellt einen diagnostischen Rahmen vor, der anhand von Gesichtsparäidolie zeigt, wie unterschiedliche Repräsentationsarchitekturen in Vision-Modellen bei mehrdeutigen visuellen Eingaben zu systematisch unterschiedlichen Interpretationsmechanismen führen, wobei Sprach-Vision-Modelle zu semantischer Überaktivierung neigen, während Detektionsmodelle durch konservative Priors eine geringere Verzerrung aufweisen.

Qianpu Chen, Derya Soydaner, Rob Saunders2026-03-05🤖 cs.AI

Volumetric Directional Diffusion: Anchoring Uncertainty Quantification in Anatomical Consensus for Ambiguous Medical Image Segmentation

Der Artikel stellt das Volumetrische Richtungs-Diffusions-Modell (VDD) vor, das durch die mathematische Verankerung der generativen Trajektorie an einen deterministischen Konsens-Prior die aleatorische Unsicherheit bei der 3D-Läsionsegmentierung präzise quantifiziert, ohne dabei die anatomische Integrität zu gefährden.

Chao Wu, Kangxian Xie, Mingchen Gao2026-03-05🤖 cs.AI

DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

Die Arbeit stellt DQE-CIR vor, eine Methode zur kompositen Bildsuche, die durch lernbare Attributgewichte und ein zielrelatives negatives Sampling die Diskriminativität von Abfrage-Embeddings verbessert, um Relevanzunterdrückung und semantische Verwirrung in bestehenden kontrastiven Lernrahmen zu überwinden.

Geon Park, Ji-Hoon Park, Seong-Whan Lee2026-03-05🤖 cs.AI

Long-Term Visual Localization in Dynamic Benthic Environments: A Dataset, Footprint-Based Ground Truth, and Visual Place Recognition Benchmark

Diese Arbeit stellt einen kuratierten Datensatz für die langfristige visuelle Lokalisierung in dynamischen benthischen Umgebungen vor, führt eine neuartige fußabdruckbasierte Methode zur Generierung von Ground-Truth-Daten ein und bewertet darauf aufbauend den Zustand der Technik bei der visuellen Ortserkennung, wobei gezeigt wird, dass herkömmliche Methoden die Leistung in solchen Umgebungen überschätzen.

Martin Kvisvik Larsen, Oscar Pizarro2026-03-05💻 cs

Revisiting the Role of Foundation Models in Cell-Level Histopathological Image Analysis under Small-Patch Constraints -- Effects of Training Data Scale and Blur Perturbations on CNNs and Vision Transformers

Die Studie zeigt, dass bei der Zellklassifizierung in histopathologischen Bildern unter extremen räumlichen Einschränkungen (40x40 Pixel) spezialisierte Architekturen wie CustomViT effizienter und genauer sind als große vortrainierte Foundation-Modelle, sobald ausreichend Trainingsdaten verfügbar sind.

Hiroki Kagiyama, Toru Nagasaka, Yukari Adachi + 5 more2026-03-05💻 cs

Efficient Point Cloud Processing with High-Dimensional Positional Encoding and Non-Local MLPs

Die Autoren stellen HPENets vor, eine effiziente Familie von MLP-Netzwerken für die Punktwolkenverarbeitung, die auf einem Zwei-Phasen-Abstraktions- und Verfeinerungsansatz (ABS-REF) basiert und durch den Einsatz hochdimensionaler Positions-Kodierung (HPE) sowie nicht-lokaler MLPs eine überlegene Leistung bei deutlich reduzierter Rechenkomplexität im Vergleich zu bestehenden Methoden erzielt.

Yanmei Zou, Hongshan Yu, Yaonan Wang + 4 more2026-03-05🤖 cs.AI