StemVLA:An Open-Source Vision-Language-Action Model with Future 3D Spatial Geometry Knowledge and 4D Historical Representation

Die Arbeit stellt StemVLA vor, ein Open-Source-Vision-Language-Action-Modell, das durch die explizite Integration zukünftiger 3D-Raumgeometrie und historischer 4D-Spatiotemporal-Darstellungen die räumliche Schlussfolgerung und langfristige Entscheidungsfindung bei Robotermanipulationsaufgaben verbessert und damit neue Maßstäbe auf dem CALVIN ABC-D-Benchmark setzt.

Jiasong Xiao, Yutao She, Kai Li + 3 more2026-03-02💻 cs

Unsupervised Causal Prototypical Networks for De-biased Interpretable Dermoscopy Diagnosis

Die Arbeit stellt CausalProto vor, ein unüberwachtes kausales prototypisches Netzwerk, das mithilfe eines strukturellen kausalen Modells und eines Informationsengpasses Umwelteinflüsse von pathologischen Merkmalen entkoppelt, um in der Dermoskopie sowohl eine höhere diagnostische Genauigkeit als auch eine vertrauenswürdige, verzerrungsfreie visuelle Interpretierbarkeit zu erreichen.

Junhao Jia, Yueyi Wu, Huangwei Chen + 4 more2026-03-02⚡ eess

Breaking the Data Barrier: Robust Few-Shot 3D Vessel Segmentation using Foundation Models

Diese Arbeit stellt einen neuartigen Rahmen vor, der einen vortrainierten Vision-Foundation-Modell (DINOv3) mit spezialisierten 3D-Anpassungsmechanismen kombiniert, um bei extrem wenigen Trainingsdaten eine robuste und domänenübergreifende Gefäßsegmentierung zu ermöglichen und dabei den aktuellen Standard nnU-Net signifikant zu übertreffen.

Kirato Yoshihara, Yohei Sugawara, Yuta Tokuoka + 1 more2026-03-02⚡ eess

BiM-GeoAttn-Net: Linear-Time Depth Modeling with Geometry-Aware Attention for 3D Aortic Dissection CTA Segmentation

Die Studie stellt BiM-GeoAttn-Net vor, einen leichten Rahmen, der bidirektionale Tiefen-Mamba-Modellierung mit geometriebewusster Aufmerksamkeit kombiniert, um die präzise 3D-Segmentierung von Aortendissektionen in CTA-Bildern durch effiziente Erfassung von Schichtabhängigkeiten und strukturelle Verfeinerung zu verbessern.

Yuan Zhang, Lei Liu, Jialin Zhang + 3 more2026-03-02⚡ eess

See, Act, Adapt: Active Perception for Unsupervised Cross-Domain Visual Adaptation via Personalized VLM-Guided Agent

Die Arbeit stellt Sea² vor, einen unüberwachten Ansatz zur domänenübergreifenden visuellen Anpassung, der einen personalisierten VLM-gesteuerten Agenten nutzt, um durch aktive Pose-Steuerung und skalare Rückmeldungen die Leistung vortrainierter Wahrnehmungsmodelle in neuen Umgebungen zu verbessern, ohne diese Modelle selbst nachtrainieren zu müssen.

Tianci Tang, Tielong Cai, Hongwei Wang + 1 more2026-03-02🤖 cs.AI

Footprint-Guided Exemplar-Free Continual Histopathology Report Generation

Die Arbeit stellt einen exemplarfreien Ansatz für das kontinuierliche Lernen zur Generierung von Pathologieberichten aus Ganzschnittbildern vor, der durch die Nutzung kompakter morphologischer Fußabdrücke und stilistischer Deskriptoren katastrophales Vergessen verhindert und gleichzeitig die Anpassung an sich wandelnde klinische Standards ohne Speicherung historischer Daten ermöglicht.

Pratibha Kumari, Daniel Reisenbüchler, Afshin Bozorgpour + 3 more2026-03-02💻 cs

Revisiting Integration of Image and Metadata for DICOM Series Classification: Cross-Attention and Dictionary Learning

Die Autoren stellen einen end-to-end multimodalen Framework vor, der durch die Kombination von Bild- und Metadaten-Encodierung mit einem bidirektionalen Cross-Attention-Mechanismus sowie einem spärlichen, fehlwertbewussten Metadaten-Encoder die robuste Klassifizierung von DICOM-Serien trotz heterogener Inhalte, variabler Längen und unvollständiger Metadaten ermöglicht.

Tuan Truong, Melanie Dohmen, Sara Lorio + 1 more2026-03-02⚡ eess

Polarization Uncertainty-Guided Diffusion Model for Color Polarization Image Demosaicking

Die vorgestellte Arbeit führt einen Diffusionsmodell-Ansatz ein, der durch die explizite Modellierung und Nutzung von Polarisationsunsicherheiten die Rekonstruktion von Farb-Polarisationsbildern verbessert und so die Genauigkeit bei der Wiederherstellung von Polarisationsmerkmalen wie dem Polarisationsgrad und dem Polarisationswinkel signifikant steigert.

Chenggong Li, Yidong Luo, Junchao Zhang + 1 more2026-03-02⚡ eess