cs.CV Arbeiten | Gist.Science

B $^3$ -Seg: Camera-Free, Training-Free 3DGS Segmentation via Analytic EIG and Beta-Bernoulli Bayesian Updates

Die Arbeit stellt B $^3$ -Seg vor, eine kamera- und trainingsfreie Methode zur interaktiven 3DGS-Segmentierung, die durch sequenzielle Beta-Bernoulli-Bayes-Updates und eine analytische Expected-Information-Gain-Optimierung eine effiziente und theoretisch fundierte Objektauswahl in wenigen Sekunden ermöglicht.

Hiromichi Kamata, Samuel Arthur Munro, Fuminori Homma2026-02-20💻 cs

BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning

Der Artikel stellt BadCLIP++ vor, ein einheitliches Framework für multimodales kontrastives Lernen, das durch einen semantisch fusionierten QR-Mikro-Trigger und Stabilisierungstechniken sowohl die Stealth-Fähigkeit als auch die Persistenz von Backdoor-Angriffen gegenüber starken Abwehrmaßnahmen und Feinabstimmung sicherstellt.

Siyuan Liang, Yongcheng Jing, Yingjie Wang + 3 more2026-02-20💻 cs

NRGS-SLAM: Monocular Non-Rigid SLAM for Endoscopy via Deformation-Aware 3D Gaussian Splatting

NRGS-SLAM ist ein monokulares nicht-rigides SLAM-System für die Endoskopie, das mittels einer deformationsbewussten 3D-Gaussian-Splatting-Repräsentation und eines bayesschen Selbstüberwachungsansatzes die Verknüpfungsambiguität zwischen Kamerabewegung und Gewebedeformation auflöst, um präzisere Pose-Schätzungen und fotorealistische Rekonstruktionen zu ermöglichen.

Jiwei Shan, Zeyu Cai, Yirui Li + 5 more2026-02-20💻 cs

Selective Training for Large Vision Language Models via Visual Information Gain

Die Arbeit stellt Visual Information Gain (VIG) vor, eine metrikbasierte Methode zur quantitativen Erfassung des visuellen Informationsgewinns in großen visuell-sprachlichen Modellen, die eine selektive Schulierung hochrelevanter Daten ermöglicht, um Sprachverzerrungen zu reduzieren und die visuelle Verankerung zu verbessern.

Seulbi Lee, Sangheum Hwang2026-02-20💻 cs

Texo: Formula Recognition within 20M Parameters

Die Arbeit stellt Texo vor, ein minimalistisches Formelerkennungsmodell mit nur 20 Millionen Parametern, das durch gezieltes Design und Wissensdistillation eine Leistung auf dem Niveau aktueller State-of-the-Art-Modelle bei deutlich reduzierter Größe erreicht und somit Echtzeit-Inferenz auf Endgeräten ermöglicht.

Sicheng Mao2026-02-20🤖 cs.AI

EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

Die Arbeit stellt EntropyPrune vor, einen neuartigen Rahmen zur visuellen Token-Pruning für multimodale Large Language Models, der durch die Identifizierung einer „Entropie-Kollaps-Schicht" und die Nutzung der spektralen Äquivalenz von Gram-Matrizen eine prinzipiengeleitete, effiziente und genaue Beschleunigung ohne Heuristiken ermöglicht.

Yahong Wang, Juncheng Wu, Zhangkai Ni + 6 more2026-02-20💻 cs

GASS: Geometry-Aware Spherical Sampling for Disentangled Diversity Enhancement in Text-to-Image Generation

Die Arbeit stellt GASS (Geometry-Aware Spherical Sampling) vor, eine Methode, die die Vielfalt bei der Text-zu-Bild-Generierung durch eine geometrische Zerlegung der CLIP-Einbettungen in promptabhängige und promptunabhängige Richtungen verbessert, ohne dabei die Bildqualität oder semantische Ausrichtung zu beeinträchtigen.

Ye Zhu, Kaleb S. Newman, Johannes F. Lutzeyer + 3 more2026-02-20💻 cs

HiMAP: History-aware Map-occupancy Prediction with Fallback

HiMAP ist ein tracking-freies Vorhersagerahmenwerk für autonomes Fahren, das mithilfe historischer Belegungskarten und eines speziellen Abfragemoduls robuste Trajektorienprognosen auch bei Ausfällen der Objektverfolgung liefert und dabei die Zuverlässigkeit gegenüber herkömmlichen, identitätsbasierten Methoden signifikant verbessert.

Yiming Xu, Yi Yang, Hao Cheng + 1 more2026-02-20💻 cs

Inferring Height from Earth Embeddings: First insights using Google AlphaEarth

Die Studie zeigt, dass AlphaEarth-Embeddings in Kombination mit U-Net++-Architekturen vielversprechende Ergebnisse für die Ableitung von Geländehöhen liefern, wobei die Generalisierungsfähigkeit zwar durch Verteilungsverschiebungen eingeschränkt ist, aber dennoch robuste topografische Muster erfasst werden.

Alireza Hamoudzadeh, Valeria Belloni, Roberta Ravanelli2026-02-20💻 cs

A Multi-modal Detection System for Infrastructure-based Freight Signal Priority

Diese Arbeit stellt ein infrastrukturell verankertes, multimodales Detektionssystem vor, das LiDAR- und Kamerasensoren sowie KI-basierte Algorithmen integriert, um die präzise Erfassung von Frachtfahrzeugen für eine zuverlässige Signalpriorisierung an Kreuzungen zu ermöglichen.

Ziyan Zhang, Chuheng Wei, Xuanpeng Zhao + 6 more2026-02-20⚡ eess

Unified Latents (UL): How to train your latents

Die Arbeit stellt Unified Latents (UL) vor, ein Framework zur gemeinsamen Regularisierung latenter Darstellungen durch einen Diffusionsprior und einen Diffusionsdecoder, das auf ImageNet-512 und Kinetics-600 neue State-of-the-Art-Ergebnisse bei gleichzeitig reduzierter Rechenkomplexität erzielt.

Jonathan Heek, Emiel Hoogeboom, Thomas Mensink + 1 more2026-02-20🤖 cs.LG

Physics Encoded Spatial and Temporal Generative Adversarial Network for Tropical Cyclone Image Super-resolution

Die Studie stellt PESTGAN vor, einen physikalisch kodierten generativen adversariellen neuronalen Netz, der durch die Integration des PhyCell-Moduls zur Approximation der Wirbelgleichung und ein duales Diskriminator-System die überlegene Rekonstruktion physikalisch plausibler Wolkenstrukturen bei der Super-Auflösung von tropischen Zyklonen-Satellitenbildern ermöglicht.

Ruoyi Zhang, Jiawei Yuan, Lujia Ye + 2 more2026-02-20💻 cs

Attachment Anchors: A Novel Framework for Laparoscopic Grasping Point Prediction in Colorectal Surgery

Diese Arbeit stellt mit „Attachment Anchors" ein neues Framework vor, das durch die Kodierung lokaler geometrischer und mechanischer Beziehungen die Vorhersage von Greifpunkten in der laparoskopischen Kolorektalchirurgie verbessert und dabei insbesondere bei unbekannten Eingriffen und Chirurgen robustere Ergebnisse liefert als rein bildbasierte Ansätze.

Dennis N. Schneider, Lars Wagner, Daniel Rueckert + 1 more2026-02-20💻 cs

The Sound of Death: Deep Learning Reveals Vascular Damage from Carotid Ultrasound

Diese Studie zeigt, dass ein Deep-Learning-Modell Routine-Untersuchungen der Halsschlagader nutzt, um durch Hypertonie als schwaches Label trainierte, biologisch plausible Merkmale vaskulärer Schäden zu extrahieren, die die Vorhersage von kardiovaskulären Ereignissen und der Gesamtsterblichkeit verbessern und dabei konventionelle Risikomodelle übertreffen.

Christoph Balada, Aida Romano-Martinez, Payal Varshney + 10 more2026-02-20🤖 cs.LG

Leveraging Contrastive Learning for a Similarity-Guided Tampered Document Data Generation Pipeline

Die vorgestellte Arbeit schlägt eine neuartige Pipeline zur Generierung hochwertiger und vielfältiger manipulierter Dokumentenbilder vor, die auf kontrastivem Lernen und einer zusätzlichen Bewertung der Textumrandung basiert, um die Datenknappheit zu überwinden und die Robustheit von Detektionsmodellen im Vergleich zu bestehenden regelbasierten Methoden signifikant zu verbessern.

Mohamed Dhouib, Davide Buscaldi, Sonia Vanier + 1 more2026-02-20💻 cs

Polaffini: A feature-based approach for robust affine and polyaffine image registration

Das Paper stellt Polaffini vor, ein schnelles und robustes Framework für die medizinische Bildregistrierung, das durch die Nutzung tiefenlernbasierter Segmentierungen anatomisch fundierte Merkmalspunkte extrahiert, um effiziente affine und polyaffine Transformationen zu berechnen, die sowohl die strukturelle Ausrichtung verbessern als auch eine bessere Initialisierung für nachfolgende nichtlineare Registrierungsverfahren bieten.

Antoine Legouhy, Cosimo Campo, Ross Callaghan + 2 more2026-02-20💻 cs

Application and Evaluation of the Common Circles Method

Die Studie stellt eine praktische Implementierung der Common-Circles-Methode zur effizienten und stabilen Schätzung von Rotationsbewegungen in der optischen Diffractionstomographie von biologischem Gewebe vor, die durch zeitliche Konsistenzbedingungen verbessert wird und sich als rechenzeitgünstige Alternative zu vollständigen Optimierungsmethoden erweist.

Michael Quellmalz, Mia Kvåle Løvmo, Simon Moser + 2 more2026-02-20🔢 math

DRetHTR: Linear-Time Decoder-Only Retentive Network for Handwritten Text Recognition

Das Paper stellt DRetHTR vor, einen Decoder-only-Modellansatz auf Basis von Retentive Networks, der im Vergleich zu Transformer-basierten Systemen für Handschrifterkennung eine bis zu 1,9-fach schnellere Inferenz und einen 42 % geringeren Speicherverbrauch bei gleichbleibender oder besserer Genauigkeit ermöglicht, indem es den wachsenden KV-Cache durch lineare Retention ersetzt und durch layer-spezifische Gamma-Skalierung lokale sowie globale Abhängigkeiten effektiv modelliert.

Changhun Kim, Martin Mayr, Thomas Gorges + 4 more2026-02-20💻 cs

SpectralGCD: Spectral Concept Selection and Cross-modal Representation Learning for Generalized Category Discovery

Das Paper stellt SpectralGCD vor, eine effiziente multimodale Methode zur Generalized Category Discovery, die durch spektrale Filterung und Wissensdistillation CLIP-basierte Bild-Konzept-Ähnlichkeiten nutzt, um neue Kategorien mit hoher Genauigkeit und geringem Rechenaufwand zu identifizieren.

Lorenzo Caselli, Marco Mistretta, Simone Magistri + 1 more2026-02-20🤖 cs.AI

A High-Level Survey of Optical Remote Sensing

Diese Arbeit bietet einen umfassenden Überblick über den Stand der optischen Fernerkundung, einschließlich relevanter Datensätze und Methoden, und dient als Leitfaden für Forscher, die in dieses dynamische Feld einsteigen möchten.

Panagiotis Koletsis, Vasilis Efthymiou, Maria Vakalopoulou + 3 more2026-02-20🤖 cs.AI

← Zurück Weiter →

cs.CV

B3^33-Seg: Camera-Free, Training-Free 3DGS Segmentation via Analytic EIG and Beta-Bernoulli Bayesian Updates