Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object

Diese Arbeit schlägt eine Methode zur Optimierung viewpoint-konsistenter adversarialer Texturen für 3D-Objekte vor, die durch differentiable Rendering, Expectation over Transformation und eine Coarse-to-Fine-Strategie die Anfälligkeit visuomotorischer Robotikrichtlinien gegenüber Perspektivverzerrungen und dynamischen Kamerabewegungen aufdeckt.

Chanmi Lee, Minsung Yoon, Woojae Kim + 2 more2026-03-06💻 cs

Person Detection and Tracking from an Overhead Crane LiDAR

Diese Arbeit stellt einen maßgeschneiderten Overhead-LiDAR-Datensatz für die Personenerkennung und -verfolgung in industriellen Innenräumen vor, adaptiert bestehende 3D-Detektoren für diese spezielle Perspektive und validiert deren Echtzeitfähigkeit durch eine umfassende Evaluierung, um die Lücke zwischen herkömmlichen Fahrzeugsensordaten und Überkopf-Szenarien zu schließen.

Nilusha Jayawickrama, Henrik Toikka, Risto Ojala2026-03-06🤖 cs.LG

Location-Aware Pretraining for Medical Difference Visual Question Answering

Die Studie stellt einen neuartigen Vorschulungsansatz vor, der durch lokationsbewusste Aufgaben wie automatische Referenzausdrücke und verankerte Bildunterschriften die Fähigkeit von Vision-Encodern verbessert, subtile visuelle Unterschiede in medizinischen Bildern zu erkennen, und damit den State-of-the-Art bei der differenziellen visuellen Fragebeantwortung für Röntgenbilder der Brust erreicht.

Denis Musinguzi, Caren Han, Prasenjit Mitra2026-03-06🤖 cs.AI

BiEvLight: Bi-level Learning of Task-Aware Event Refinement for Low-Light Image Enhancement

Die Arbeit stellt BiEvLight vor, ein hierarchisches Framework zur Low-Light-Bildverbesserung, das durch eine bi-level-Optimierung die task-spezifische Rauschunterdrückung von Event-Kameradaten mit der Bildverbesserung koppelt, um die durch Rauschüberlagerung verursachten Leistungsengpässe zu überwinden und den State-of-the-Art signifikant zu übertreffen.

Zishu Yao, Xiang-Xiang Su, Shengning Zhou + 3 more2026-03-06💻 cs

Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding

Das Paper stellt VideoHV-Agent vor, ein Multi-Agenten-Framework für das Verständnis langer Videos, das durch einen strukturierten Hypothesen-Verifikationsprozess, bei dem ein „Denker" Antworten in testbare Hypothesen umwandelt und ein „Prüfer" diese mit detaillierten Videoinhalten verifiziert, die Genauigkeit, Interpretierbarkeit und Recheneffizienz im Vergleich zu bestehenden Methoden verbessert.

Zheng Wang, Haoran Chen, Haoxuan Qin + 3 more2026-03-06💻 cs

TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

Die Arbeit stellt TAPFormer vor, einen Transformer-basierten Ansatz, der durch eine neuartige asynchrone Fusion von Einzelbildern und Event-Daten sowie eine adaptive gewichtete Kreuzmodalitätsfusion eine robuste und präzise Verfolgung beliebiger Punkte auch unter schwierigen Bedingungen wie Bewegungsunschärfe oder schwacher Beleuchtung ermöglicht.

Jiaxiong Liu, Zhen Tan, Jinpu Zhang + 4 more2026-03-06💻 cs

Physics-consistent deep learning for blind aberration recovery in mobile optics

Die Arbeit stellt Lens2Zernike vor, ein physik-konsistentes Deep-Learning-Framework, das durch die gleichzeitige Regression von Zernike-Koeffizienten, die Anwendung differenzierbarer physikalischer Constraints und die Nutzung von Hilfs-Spatial-Maps blind optische Aberrationen aus einzelnen mobilen Aufnahmen rekonstruiert, um eine stabile und detailreiche Entschärfung zu ermöglichen.

Kartik Jhawar, Tamo Sancho Miguel Tandoc, Khoo Jun Xuan + 1 more2026-03-06💻 cs

How far have we gone in Generative Image Restoration? A study on its capability, limitations and evaluation practices

Diese Arbeit präsentiert eine umfassende Studie zur Generativen Bildrestauration, die mittels eines neuen multidimensionalen Evaluierungsframeworks den Paradigmenwechsel von der Lösung des Problems unzureichender Details hin zur Beherrschung von Detailqualität und semantischer Kontrolle aufzeigt und gleichzeitig ein neues, menschliche Wahrnehmung besser abbildendes Qualitätsbewertungsmodell einführt.

Xiang Yin, Jinfan Hu, Zhiyuan You + 4 more2026-03-06💻 cs

Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model

Die Arbeit stellt Tell2Adapt vor, ein einheitliches Framework für die quellenfreie unüberwachte Domänenanpassung in der medizinischen Bildsegmentierung, das durch die Nutzung eines Vision Foundation Models, Kontext-bewusste Prompt-Regularisierung und visuelle Plausibilitätsverfeinerung robuste und generalisierbare Ergebnisse über diverse anatomische Ziele hinweg erzielt.

Yulong Shi, Shijie Li, Ziyi Li + 1 more2026-03-06💻 cs

Exploiting Intermediate Reconstructions in Optical Coherence Tomography for Test-Time Adaption of Medical Image Segmentation

Die Arbeit stellt IRTTA vor, eine Methode zur Testzeit-Anpassung von medizinischen Bildsegmentierungsmodellen in der optischen Kohärenztomographie, die durch die Ausnutzung informativer Zwischenrekonstruktionen und die Anpassung von Normalisierungsschichten die Segmentierungsgenauigkeit verbessert und gleichzeitig Unsicherheitsschätzungen ermöglicht, ohne den Rekonstruktionsprozess oder das zugrunde liegende Modell zu verändern.

Thomas Pinetz, Veit Hucke, Hrvoje Bogunovic2026-03-06💻 cs