NRGS-SLAM: Monocular Non-Rigid SLAM for Endoscopy via Deformation-Aware 3D Gaussian Splatting

NRGS-SLAM ist ein monokulares nicht-rigides SLAM-System für die Endoskopie, das mittels einer deformationsbewussten 3D-Gaussian-Splatting-Repräsentation und eines bayesschen Selbstüberwachungsansatzes die Verknüpfungsambiguität zwischen Kamerabewegung und Gewebedeformation auflöst, um präzisere Pose-Schätzungen und fotorealistische Rekonstruktionen zu ermöglichen.

Jiwei Shan, Zeyu Cai, Yirui Li + 5 more2026-02-20💻 cs

EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

Die Arbeit stellt EntropyPrune vor, einen neuartigen Rahmen zur visuellen Token-Pruning für multimodale Large Language Models, der durch die Identifizierung einer „Entropie-Kollaps-Schicht" und die Nutzung der spektralen Äquivalenz von Gram-Matrizen eine prinzipiengeleitete, effiziente und genaue Beschleunigung ohne Heuristiken ermöglicht.

Yahong Wang, Juncheng Wu, Zhangkai Ni + 6 more2026-02-20💻 cs

GASS: Geometry-Aware Spherical Sampling for Disentangled Diversity Enhancement in Text-to-Image Generation

Die Arbeit stellt GASS (Geometry-Aware Spherical Sampling) vor, eine Methode, die die Vielfalt bei der Text-zu-Bild-Generierung durch eine geometrische Zerlegung der CLIP-Einbettungen in promptabhängige und promptunabhängige Richtungen verbessert, ohne dabei die Bildqualität oder semantische Ausrichtung zu beeinträchtigen.

Ye Zhu, Kaleb S. Newman, Johannes F. Lutzeyer + 3 more2026-02-20💻 cs

Physics Encoded Spatial and Temporal Generative Adversarial Network for Tropical Cyclone Image Super-resolution

Die Studie stellt PESTGAN vor, einen physikalisch kodierten generativen adversariellen neuronalen Netz, der durch die Integration des PhyCell-Moduls zur Approximation der Wirbelgleichung und ein duales Diskriminator-System die überlegene Rekonstruktion physikalisch plausibler Wolkenstrukturen bei der Super-Auflösung von tropischen Zyklonen-Satellitenbildern ermöglicht.

Ruoyi Zhang, Jiawei Yuan, Lujia Ye + 2 more2026-02-20💻 cs

Attachment Anchors: A Novel Framework for Laparoscopic Grasping Point Prediction in Colorectal Surgery

Diese Arbeit stellt mit „Attachment Anchors" ein neues Framework vor, das durch die Kodierung lokaler geometrischer und mechanischer Beziehungen die Vorhersage von Greifpunkten in der laparoskopischen Kolorektalchirurgie verbessert und dabei insbesondere bei unbekannten Eingriffen und Chirurgen robustere Ergebnisse liefert als rein bildbasierte Ansätze.

Dennis N. Schneider, Lars Wagner, Daniel Rueckert + 1 more2026-02-20💻 cs

The Sound of Death: Deep Learning Reveals Vascular Damage from Carotid Ultrasound

Diese Studie zeigt, dass ein Deep-Learning-Modell Routine-Untersuchungen der Halsschlagader nutzt, um durch Hypertonie als schwaches Label trainierte, biologisch plausible Merkmale vaskulärer Schäden zu extrahieren, die die Vorhersage von kardiovaskulären Ereignissen und der Gesamtsterblichkeit verbessern und dabei konventionelle Risikomodelle übertreffen.

Christoph Balada, Aida Romano-Martinez, Payal Varshney + 10 more2026-02-20🤖 cs.LG

Leveraging Contrastive Learning for a Similarity-Guided Tampered Document Data Generation Pipeline

Die vorgestellte Arbeit schlägt eine neuartige Pipeline zur Generierung hochwertiger und vielfältiger manipulierter Dokumentenbilder vor, die auf kontrastivem Lernen und einer zusätzlichen Bewertung der Textumrandung basiert, um die Datenknappheit zu überwinden und die Robustheit von Detektionsmodellen im Vergleich zu bestehenden regelbasierten Methoden signifikant zu verbessern.

Mohamed Dhouib, Davide Buscaldi, Sonia Vanier + 1 more2026-02-20💻 cs

Polaffini: A feature-based approach for robust affine and polyaffine image registration

Das Paper stellt Polaffini vor, ein schnelles und robustes Framework für die medizinische Bildregistrierung, das durch die Nutzung tiefenlernbasierter Segmentierungen anatomisch fundierte Merkmalspunkte extrahiert, um effiziente affine und polyaffine Transformationen zu berechnen, die sowohl die strukturelle Ausrichtung verbessern als auch eine bessere Initialisierung für nachfolgende nichtlineare Registrierungsverfahren bieten.

Antoine Legouhy, Cosimo Campo, Ross Callaghan + 2 more2026-02-20💻 cs

DRetHTR: Linear-Time Decoder-Only Retentive Network for Handwritten Text Recognition

Das Paper stellt DRetHTR vor, einen Decoder-only-Modellansatz auf Basis von Retentive Networks, der im Vergleich zu Transformer-basierten Systemen für Handschrifterkennung eine bis zu 1,9-fach schnellere Inferenz und einen 42 % geringeren Speicherverbrauch bei gleichbleibender oder besserer Genauigkeit ermöglicht, indem es den wachsenden KV-Cache durch lineare Retention ersetzt und durch layer-spezifische Gamma-Skalierung lokale sowie globale Abhängigkeiten effektiv modelliert.

Changhun Kim, Martin Mayr, Thomas Gorges + 4 more2026-02-20💻 cs