Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering

Die vorgestellte Arbeit stellt einen trainingsfreien, Inferenzzeit-Steuerungsansatz namens Semantically Decoupled Latent Steering (SDLS) vor, der durch semantisch entkoppelte, orthogonale Vektoren Halluzinationen bei der automatisierten Generierung von Röntgenbefunden effektiv unterdrückt, ohne dabei die klinische Genauigkeit zu beeinträchtigen.

Ao Li, Rui Liu, Mingjie Li + 6 more2026-03-02💻 cs

HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

Das Paper stellt HiDrop vor, ein Framework für Multimodale Large Language Models, das durch späte Injektion visueller Tokens, konvexe Pyramiden-Pruning mit Early-Exit-Mechanismus und weitere Optimierungen etwa 90 % der visuellen Tokens reduziert und dabei die Leistung beibehält sowie das Training um das 1,72-fache beschleunigt.

Hao Wu, Yingqi Fan, Jinyang Dai + 3 more2026-03-02💬 cs.CL

Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities?

Die Studie stellt fest, dass einheitliche multimodale Sprachmodelle zwar über starke textbasierte Schlussfolgerungs- und Bildgenerierungsfähigkeiten verfügen, jedoch an einer signifikanten semantischen Inkonsistenz leiden, wenn sie komplexe Fragen direkt in visuelle Antworten umsetzen müssen, was auf eine mangelnde semantische Ausrichtung zwischen den Modalitäten und nicht auf eine generative Unzulänglichkeit hinweist.

Hongbo Jiang, Jie Li, Yunhang Shen + 4 more2026-03-02💻 cs

StemVLA:An Open-Source Vision-Language-Action Model with Future 3D Spatial Geometry Knowledge and 4D Historical Representation

Die Arbeit stellt StemVLA vor, ein Open-Source-Vision-Language-Action-Modell, das durch die explizite Integration zukünftiger 3D-Raumgeometrie und historischer 4D-Spatiotemporal-Darstellungen die räumliche Schlussfolgerung und langfristige Entscheidungsfindung bei Robotermanipulationsaufgaben verbessert und damit neue Maßstäbe auf dem CALVIN ABC-D-Benchmark setzt.

Jiasong Xiao, Yutao She, Kai Li + 3 more2026-03-02💻 cs

Unsupervised Causal Prototypical Networks for De-biased Interpretable Dermoscopy Diagnosis

Die Arbeit stellt CausalProto vor, ein unüberwachtes kausales prototypisches Netzwerk, das mithilfe eines strukturellen kausalen Modells und eines Informationsengpasses Umwelteinflüsse von pathologischen Merkmalen entkoppelt, um in der Dermoskopie sowohl eine höhere diagnostische Genauigkeit als auch eine vertrauenswürdige, verzerrungsfreie visuelle Interpretierbarkeit zu erreichen.

Junhao Jia, Yueyi Wu, Huangwei Chen + 4 more2026-03-02⚡ eess

Breaking the Data Barrier: Robust Few-Shot 3D Vessel Segmentation using Foundation Models

Diese Arbeit stellt einen neuartigen Rahmen vor, der einen vortrainierten Vision-Foundation-Modell (DINOv3) mit spezialisierten 3D-Anpassungsmechanismen kombiniert, um bei extrem wenigen Trainingsdaten eine robuste und domänenübergreifende Gefäßsegmentierung zu ermöglichen und dabei den aktuellen Standard nnU-Net signifikant zu übertreffen.

Kirato Yoshihara, Yohei Sugawara, Yuta Tokuoka + 1 more2026-03-02⚡ eess