Markerless 6D Pose Estimation and Position-Based Visual Servoing for Endoscopic Continuum Manipulators

Diese Arbeit stellt einen einheitlichen Rahmen für die markenlose 6D-Pose-Schätzung und die positionsbasierte visuelle Servoierung von endoskopischen Kontinuum-Manipulatoren vor, der durch eine fotorealistische Simulationspipeline, ein Multi-Feature-Fusionsnetzwerk und eine selbstüberwachte Sim-zu-Real-Anpassung präzise geschlossene Regelkreise ohne physische Marker ermöglicht.

Junhyun Park, Chunggil An, Myeongbo Park + 3 more2026-02-19💻 cs

Automated Histopathology Report Generation via Pyramidal Feature Extraction and the UNI Foundation Model

Die vorgeschlagene Arbeit stellt einen hierarchischen Vision-Language-Ansatz vor, der den UNI-Foundation-Modell mit einem Transformer-Decoder kombiniert, um durch pyramidenförmige Merkmalsextraktion und eine retrieval-basierte Verifizierung diagnostische Berichte aus gigapixelgroßen histopathologischen Ganzschnittbildern zu generieren.

Ahmet Halici, Ece Tugba Cebeci, Musa Balci + 2 more2026-02-19⚡ eess

Designing Production-Scale OCR for India: Multilingual and Domain-Specific Systems

Diese Arbeit stellt zwei Trainingsstrategien für multilinguale OCR-Systeme in Indien vor und zeigt, dass das Feinabstimmen bestehender Modelle (Chitrapathak-2) sowie ein domänenspezifischer Ansatz für Regierungsunterlagen (Parichay) im Vergleich zu End-to-End-Lösungen überlegene Genauigkeits-Latenz-Verhältnisse und State-of-the-Art-Ergebnisse für indische Sprachen und Dokumente liefern.

Ali Faraz, Raja Kolla, Ashish Kulkarni + 1 more2026-02-19🤖 cs.AI

Benchmarking Adversarial Robustness and Adversarial Training Strategies for Object Detection

Diese Arbeit schlägt ein einheitliches Benchmark-Framework vor, um Angriffe auf Objekterkennungsmodelle fair zu vergleichen, und stellt fest, dass moderne Angriffe auf Transformer-Architekturen schlecht übertragbar sind, während eine robuste Verteidigung durch adversariales Training mit einer Mischung aus verschiedenen hochperturbativen Angriffen erreicht wird.

Alexis Winter, Jean-Vincent Martini, Romaric Audigier + 2 more2026-02-19💻 cs

DressWild: Feed-Forward Pose-Agnostic Garment Sewing Pattern Generation from In-the-Wild Images

Die Arbeit stellt DressWild vor, ein neuartiges Feed-Forward-Verfahren, das mithilfe von Vision-Language-Modellen und einem Transformer-Encoder aus einzelnen, pose-variierenden Wildbildern physik-konsistente 2D-Nähmuster und entsprechende 3D-Garmente direkt rekonstruiert, ohne auf iterative Optimierung oder Mehransichtseingaben angewiesen zu sein.

Zeng Tao, Ying Jiang, Yunuo Chen + 7 more2026-02-19💻 cs

Unpaired Image-to-Image Translation via a Self-Supervised Semantic Bridge

Die Autoren stellen das Self-Supervised Semantic Bridge (SSB)-Framework vor, das durch die Integration externer semantischer Priors in Diffusionsbrückenmodelle mittels selbstüberwachter visueller Encoder eine räumlich treue, unüberwachte Bild-zu-Bild-Übersetzung ermöglicht und dabei sowohl medizinische Bildsynthese als auch textgesteuerte Bearbeitung verbessert.

Jiaming Liu, Felix Petersen, Yunhe Gao + 6 more2026-02-19💻 cs

PredMapNet: Future and Historical Reasoning for Consistent Online HD Vectorized Map Construction

Die Arbeit stellt PredMapNet vor, ein neuartiges End-to-End-Framework für die konsistente Online-Erstellung vektorisierter HD-Karten, das durch die Kombination von semantikbewusster Abfrageinitialisierung, explizitem historischem Gedächtnis und kurzfristiger Zukunftsprognose die zeitlichen Inkonsistenzen bestehender Methoden überwindet und auf den Datensätzen nuScenes und Argoverse2 neuartige State-of-the-Art-Ergebnisse erzielt.

Bo Lang, Nirav Savaliya, Zhihao Zheng + 3 more2026-02-19💻 cs

Saliency-Aware Multi-Route Thinking: Revisiting Vision-Language Reasoning

Die Arbeit stellt die modellspezifische und datenfreie Methode „Saliency-Aware Principle" (SAP) vor, die durch die Auswahl von Prinzipien auf hoher Ebene und die Unterstützung multipler Inferenzpfade die Akkumulation von Fehlern bei Vision-Language-Modellen verhindert, die Halluzination von Objekten reduziert und gleichzeitig eine stabilere, latenzärmere Schlussfolgerung im Vergleich zu herkömmlichen Chain-of-Thought-Ansätzen ermöglicht.

Mingjia Shi, Yinhan He, Yaochen Zhu + 1 more2026-02-19💻 cs

TeCoNeRV: Leveraging Temporal Coherence for Compressible Neural Representations for Videos

TeCoNeRV ist ein neuartiger Hypernetwork-Ansatz zur Videokompression, der durch die Zerlegung in Patch-Tubelets, ein residuals-basiertes Speicherschema und eine Regularisierung für zeitliche Kohärenz die Effizienz und Qualität bei gleichzeitig deutlich reduziertem Speicherbedarf und schnellerer Kodierung im Vergleich zu bestehenden Methoden verbessert.

Namitha Padmanabhan, Matthew Gwilliam, Abhinav Shrivastava2026-02-19💻 cs

ReCAP: Recursive Cross Attention Network for Pseudo-Label Generation in Robotic Surgical Skill Assessment

Die Studie stellt ReCAP vor, ein schwach überwachtes rekursives Transformer-Modell, das kinematische Daten nutzt, um detaillierte OSATS-Pseudo-Labels für die roboterassistierte chirurgische Fähigkeitsbewertung zu generieren und dabei sowohl die State-of-the-Art-Performance bei der GRS-Vorhersage übertrifft als auch durch einen erfahrenen Chirurgen validiert wurde.

Julien Quarez, Marc Modat, Sebastien Ourselin + 2 more2026-02-18🤖 cs.AI