cs.CV Arbeiten | Gist.Science

Markerless 6D Pose Estimation and Position-Based Visual Servoing for Endoscopic Continuum Manipulators

Diese Arbeit stellt einen einheitlichen Rahmen für die markenlose 6D-Pose-Schätzung und die positionsbasierte visuelle Servoierung von endoskopischen Kontinuum-Manipulatoren vor, der durch eine fotorealistische Simulationspipeline, ein Multi-Feature-Fusionsnetzwerk und eine selbstüberwachte Sim-zu-Real-Anpassung präzise geschlossene Regelkreise ohne physische Marker ermöglicht.

Junhyun Park, Chunggil An, Myeongbo Park + 3 more2026-02-19💻 cs

Automated Histopathology Report Generation via Pyramidal Feature Extraction and the UNI Foundation Model

Die vorgeschlagene Arbeit stellt einen hierarchischen Vision-Language-Ansatz vor, der den UNI-Foundation-Modell mit einem Transformer-Decoder kombiniert, um durch pyramidenförmige Merkmalsextraktion und eine retrieval-basierte Verifizierung diagnostische Berichte aus gigapixelgroßen histopathologischen Ganzschnittbildern zu generieren.

Ahmet Halici, Ece Tugba Cebeci, Musa Balci + 2 more2026-02-19⚡ eess

Designing Production-Scale OCR for India: Multilingual and Domain-Specific Systems

Diese Arbeit stellt zwei Trainingsstrategien für multilinguale OCR-Systeme in Indien vor und zeigt, dass das Feinabstimmen bestehender Modelle (Chitrapathak-2) sowie ein domänenspezifischer Ansatz für Regierungsunterlagen (Parichay) im Vergleich zu End-to-End-Lösungen überlegene Genauigkeits-Latenz-Verhältnisse und State-of-the-Art-Ergebnisse für indische Sprachen und Dokumente liefern.

Ali Faraz, Raja Kolla, Ashish Kulkarni + 1 more2026-02-19🤖 cs.AI

Visual Self-Refine: A Pixel-Guided Paradigm for Accurate Chart Parsing

Die Arbeit stellt Visual Self-Refine (VSR) vor, einen neuen Paradigmenwechsel für das präzise Parsen von Diagrammen, bei dem ein Modell durch die Generierung und visuelle Rückkopplung von Pixel-Lokalisierungen seine eigenen visuellen Wahrnehmungsfehler selbst korrigiert, was in dem neuen Modell ChartVSR und dem Benchmark ChartP-Bench umgesetzt wird.

Jinsong Li, Xiaoyi Dong, Yuhang Zang + 3 more2026-02-19💻 cs

MMA: Multimodal Memory Agent

Die Arbeit stellt den Multimodal Memory Agent (MMA) vor, der durch dynamische Zuverlässigkeitsbewertungen und einen abstinenten Mechanismus die Zuverlässigkeit langfristiger multimodaler Agenten verbessert, während das neu eingeführte MMA-Bench-Verfahren den „Visuellen Placebo-Effekt" aufdeckt und die Überlegenheit des Ansatzes gegenüber Baselines unter Beweis stellt.

Yihao Lu, Wanru Cheng, Zeyu Zhang + 1 more2026-02-19💻 cs

Benchmarking Adversarial Robustness and Adversarial Training Strategies for Object Detection

Diese Arbeit schlägt ein einheitliches Benchmark-Framework vor, um Angriffe auf Objekterkennungsmodelle fair zu vergleichen, und stellt fest, dass moderne Angriffe auf Transformer-Architekturen schlecht übertragbar sind, während eine robuste Verteidigung durch adversariales Training mit einer Mischung aus verschiedenen hochperturbativen Angriffen erreicht wird.

Alexis Winter, Jean-Vincent Martini, Romaric Audigier + 2 more2026-02-19💻 cs

DressWild: Feed-Forward Pose-Agnostic Garment Sewing Pattern Generation from In-the-Wild Images

Die Arbeit stellt DressWild vor, ein neuartiges Feed-Forward-Verfahren, das mithilfe von Vision-Language-Modellen und einem Transformer-Encoder aus einzelnen, pose-variierenden Wildbildern physik-konsistente 2D-Nähmuster und entsprechende 3D-Garmente direkt rekonstruiert, ohne auf iterative Optimierung oder Mehransichtseingaben angewiesen zu sein.

Zeng Tao, Ying Jiang, Yunuo Chen + 7 more2026-02-19💻 cs

Let's Split Up: Zero-Shot Classifier Edits for Fine-Grained Video Understanding

Die Arbeit stellt eine neue Methode zur Null-Shot-Bearbeitung von Video-Klassifikatoren vor, die es ermöglicht, grobe Kategorien ohne zusätzliche Daten in feinere Unterkategorien aufzuspalten und dabei die Genauigkeit für die restlichen Klassen zu erhalten.

Kaiting Liu, Hazel Doughty2026-02-19🤖 cs.LG

Arc2Morph: Identity-Preserving Facial Morphing with Arc2Face

Die Arbeit stellt Arc2Morph vor, eine neue Methode zur Gesichtsverformung, die auf dem Arc2Face-Modell basiert und nachweislich eine hohe Angriffspotenzial aufweist, während sie die Identität der beteiligten Personen effektiv bewahrt.

Nicolò Di Domenico, Annalisa Franco, Matteo Ferrara + 1 more2026-02-19💻 cs

A Contrastive Learning Framework Empowered by Attention-based Feature Adaptation for Street-View Image Classification

Die Autoren stellen CLIP-MHAdapter vor, ein effizientes Framework zur Straßenbildklassifizierung, das durch eine auf Multi-Head-Self-Attention basierende Feature-Adaptation feinabgestimmte lokale Merkmale nutzt und damit neue State-of-the-Art-Ergebnisse bei gleichzeitig geringem Rechenaufwand erzielt.

Qi You, Yitai Cheng, Zichao Zeng + 1 more2026-02-19🤖 cs.AI

Explainable AI: Context-Aware Layer-Wise Integrated Gradients for Explaining Transformer Models

Die Autoren stellen das CA-LIG-Framework vor, ein einheitliches hierarchisches Attributionsverfahren, das durch die Integration von layerspezifischen integrierten Gradienten und klassenspezifischen Aufmerksamkeitsgradienten kontextsensitive und aussagekräftige Erklärungen für Transformer-Modelle liefert, die über bestehende Methoden hinausgehen.

Melkamu Abay Mersha, Jugal Kalita2026-02-19💬 cs.CL

Unpaired Image-to-Image Translation via a Self-Supervised Semantic Bridge

Die Autoren stellen das Self-Supervised Semantic Bridge (SSB)-Framework vor, das durch die Integration externer semantischer Priors in Diffusionsbrückenmodelle mittels selbstüberwachter visueller Encoder eine räumlich treue, unüberwachte Bild-zu-Bild-Übersetzung ermöglicht und dabei sowohl medizinische Bildsynthese als auch textgesteuerte Bearbeitung verbessert.

Jiaming Liu, Felix Petersen, Yunhe Gao + 6 more2026-02-19💻 cs

PredMapNet: Future and Historical Reasoning for Consistent Online HD Vectorized Map Construction

Die Arbeit stellt PredMapNet vor, ein neuartiges End-to-End-Framework für die konsistente Online-Erstellung vektorisierter HD-Karten, das durch die Kombination von semantikbewusster Abfrageinitialisierung, explizitem historischem Gedächtnis und kurzfristiger Zukunftsprognose die zeitlichen Inkonsistenzen bestehender Methoden überwindet und auf den Datensätzen nuScenes und Argoverse2 neuartige State-of-the-Art-Ergebnisse erzielt.

Bo Lang, Nirav Savaliya, Zhihao Zheng + 3 more2026-02-19💻 cs

VETime: Vision Enhanced Zero-Shot Time Series Anomaly Detection

Die Arbeit stellt VETime vor, ein neuartiges Zero-Shot-Framework für die Anomalieerkennung in Zeitreihen, das durch reversible Bildkonvertierung, patch-basierte zeitliche Ausrichtung und adaptive multimodale Fusion die Stärken von 1D-Temporal- und 2D-Vision-Modellen vereint, um sowohl punktuelle als auch kontextuelle Anomalien präzise zu lokalisieren.

Yingyuan Yang, Tian Lan, Yifei Gao + 5 more2026-02-19💻 cs

Learning Situated Awareness in the Real World

Das Paper stellt SAW-Bench vor, ein neues Benchmark mit realen Egocentric-Videos und annotierten Fragen, das die Lücke zwischen menschlicher und maschineller situiertem Bewusstsein aufdeckt und zeigt, dass aktuelle Multimodal-Modelle trotz teilweise erfolgreicher geometrischer Hinweise bei der räumlichen Schlussfolgerung aus der eigenen Perspektive signifikant versagen.

Chuhan Li, Ruilin Han, Joy Hsu + 5 more2026-02-19💻 cs

Are Object-Centric Representations Better At Compositional Generalization?

Die Studie zeigt, dass objektszentrierte Darstellungen im Vergleich zu dichten Repräsentationen eine überlegene kompositionelle Generalisierung bieten, insbesondere wenn Datenmenge, Trainingsvielfalt oder Rechenkapazität begrenzt sind.

Ferdinand Kapl, Amir Mohammad Karimi Mamaghan, Maximilian Seitzer + 4 more2026-02-19🤖 cs.LG

Saliency-Aware Multi-Route Thinking: Revisiting Vision-Language Reasoning

Die Arbeit stellt die modellspezifische und datenfreie Methode „Saliency-Aware Principle" (SAP) vor, die durch die Auswahl von Prinzipien auf hoher Ebene und die Unterstützung multipler Inferenzpfade die Akkumulation von Fehlern bei Vision-Language-Modellen verhindert, die Halluzination von Objekten reduziert und gleichzeitig eine stabilere, latenzärmere Schlussfolgerung im Vergleich zu herkömmlichen Chain-of-Thought-Ansätzen ermöglicht.

Mingjia Shi, Yinhan He, Yaochen Zhu + 1 more2026-02-19💻 cs

TeCoNeRV: Leveraging Temporal Coherence for Compressible Neural Representations for Videos

TeCoNeRV ist ein neuartiger Hypernetwork-Ansatz zur Videokompression, der durch die Zerlegung in Patch-Tubelets, ein residuals-basiertes Speicherschema und eine Regularisierung für zeitliche Kohärenz die Effizienz und Qualität bei gleichzeitig deutlich reduziertem Speicherbedarf und schnellerer Kodierung im Vergleich zu bestehenden Methoden verbessert.

Namitha Padmanabhan, Matthew Gwilliam, Abhinav Shrivastava2026-02-19💻 cs

ReCAP: Recursive Cross Attention Network for Pseudo-Label Generation in Robotic Surgical Skill Assessment

Die Studie stellt ReCAP vor, ein schwach überwachtes rekursives Transformer-Modell, das kinematische Daten nutzt, um detaillierte OSATS-Pseudo-Labels für die roboterassistierte chirurgische Fähigkeitsbewertung zu generieren und dabei sowohl die State-of-the-Art-Performance bei der GRS-Vorhersage übertrifft als auch durch einen erfahrenen Chirurgen validiert wurde.

Julien Quarez, Marc Modat, Sebastien Ourselin + 2 more2026-02-18🤖 cs.AI

Just KIDDIN: Knowledge Infusion and Distillation for Detection of INdecent Memes

Die Arbeit stellt einen hybriden neurosymbolischen Ansatz namens Just KIDDIN vor, der durch die Kombination von Wissen aus ConceptNet und Wissenstransfer von großen visuell-sprachlichen Modellen die Erkennung von toxischen Memes signifikant verbessert.

Rahul Garg, Trilok Padhi, Hemang Jain + 2 more2026-02-18💬 cs.CL

← Zurück Weiter →