cs.CV Arbeiten | Gist.Science

Do Large Language Models Understand Data Visualization Principles?

Diese Studie bewertet systematisch die Fähigkeit von Large Language Models und Vision-Language Models, Prinzipien der Datenvisualisierung zu erkennen und zu korrigieren, indem sie ein kontrolliertes Datenset mit Ground-Truth-Verifikationen nutzt und dabei sowohl ihr Potenzial als flexible Validatoren als auch ihre Grenzen im Vergleich zu symbolischen Systemen sowie eine Asymmetrie zwischen besserer Korrektur und schwächerer Detektion von Verstößen aufzeigt.

Martin Sinnona, Valentin Bonas, Viviana Siless + 1 more2026-02-24💻 cs

Transcending the Annotation Bottleneck: AI-Powered Discovery in Biology and Medicine

Der Artikel fasst den Paradigmenwechsel von der abhängigen Expertenannotation hin zu unüberwachtem und selbstüberwachtem Lernen zusammen, der es ermöglicht, die inhärente Struktur biomedizinischer Daten zu nutzen, um neue Phänotypen zu entdecken und Anomalien ohne menschliche Voreingenommenheit zu erkennen.

Soumick Chatterjee2026-02-24⚡ eess

Benchmarking Unlearning for Vision Transformers

Diese Arbeit stellt den ersten Benchmark für maschinelles Vergessen bei Vision Transformern vor, der verschiedene Algorithmen, Datensätze und Protokolle umfassend bewertet, um die Leistungsfähigkeit bestehender Methoden zu etablieren und deren Verhalten im Vergleich zu CNNs zu analysieren.

Kairan Zhao, Iurie Luca, Peter Triantafillou2026-02-24🤖 cs.AI

NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning

NovaPlan ist ein hierarchisches Framework, das geschlossene Schleifen aus Vision-Language-Modellen und Videoplanning mit geometrisch fundierter Robotersteuerung vereint, um zero-shot langfristige Manipulationsaufgaben durch autonome Fehlerwiederherstellung und die Nutzung von kinematischen Priors aus generierten Videos zu lösen.

Jiahui Fu, Junyu Nan, Lingfeng Sun + 5 more2026-02-24🤖 cs.AI

Do Large Language Models Understand Data Visualization Rules?

Diese Studie evaluiert erstmals systematisch die Fähigkeit von Large Language Models, Datenvisualisierungsregeln zu erkennen, und zeigt, dass diese Modelle zwar bei der Erkennung offensichtlicher Verstöße und der Formatierung zuverlässig sind, bei subtileren perceptuellen Regeln jedoch deutlich hinter symbolischen Solvern zurückbleiben.

Martin Sinnona, Valentin Bonas, Emmanuel Iarussi + 1 more2026-02-24💻 cs

Simulation-Ready Cluttered Scene Estimation via Physics-aware Joint Shape and Pose Optimization

Die Autoren stellen eine physikbasierte Optimierungsmethode vor, die durch die Kombination eines differenzierbaren Kontaktmodells und eines effizienten Hessian-Lösers robuste und simulationsbereite Schätzungen von Formen und Posen mehrerer verstreuter Objekte ermöglicht.

Wei-Cheng Huang, Jiaheng Han, Xiaohan Ye + 2 more2026-02-24💻 cs

Flow3r: Factored Flow Prediction for Scalable Visual Geometry Learning

Flow3r ist ein skalierbares Framework, das durch die Einführung einer faktorisierten Vorhersage optischer Flows auf Basis von Geometrie- und Pose-Latents das visuelle geometrische Lernen aus unlabeleden monokularen Videos ermöglicht und damit state-of-the-art-Ergebnisse sowohl für statische als auch dynamische Szenen erzielt.

Zhongxiao Cong, Qitao Zhao, Minsik Jeon + 1 more2026-02-24💻 cs

Improving Pixel Embedding Learning through Intermediate Distance Regression Supervision for Instance Segmentation

Diese Arbeit stellt eine effiziente Architektur für die Instanzsegmentierung vor, die durch die Integration eines Distanzregressionsmoduls zur Generierung von Clustering-Samen und zur Verbesserung der Objekt-Embeddings die mSBD-Werte im CVPPP-Blattsegmentierungswettbewerb um mehr als 8 % steigert und damit den ersten Platz auf der CodaLab-Rangliste erreicht.

Yuli Wu, Long Chen, Dorit Merhof2026-02-23💻 cs

Object Detection Based Handwriting Localization

Dieses Paper stellt einen auf Cascade R-CNN basierenden Ansatz zur Lokalisierung handschriftlicher Bereiche in Dokumenten vor, der durch effiziente Anonymisierung den Datenschutz bei der Datenübertragung verbessert und dabei eine hohe Generalisierbarkeit sowie geringe Rechenkosten aufweist.

Yuli Wu, Yucheng Hu, Suting Miao2026-02-23💻 cs

Multiscale Softmax Cross Entropy for Fovea Localization on Color Fundus Photography

Diese Arbeit stellt eine neue Methode zur Fovea-Lokalisierung in Farbfundusbildern vor, die das Problem als Klassifizierungsaufgabe behandelt und durch eine modifizierte Multiskalen-Softmax-Cross-Entropy-Verlustfunktion eine präzisere Vorhersage der Koordinaten im Vergleich zu herkömmlichen Ansätzen ermöglicht.

Yuli Wu, Peter Walter, Dorit Merhof2026-02-23⚡ eess

Perceptually Optimized Color Selection for Visualization

Die Autoren stellen das Equilibrium Distribution Model (EDM) vor, einen Algorithmus zur automatischen Auswahl von Farben im CIELAB-Farbraum, der durch die Optimierung der minimalen euklidischen Distanz selbst bei bis zu 100 Merkmalen einen deutlich besseren perceptuellen Kontrast bietet als herkömmliche harmonische Farbschemata.

Subhrajyoti Maji, John Dingliana2026-02-23💻 cs

A Deep Learning-based in silico Framework for Optimization on Retinal Prosthetic Stimulation

Die Autoren stellen ein tiefes Lern-Framework vor, das einen trainierbaren U-Net-Codierer nutzt, um die Stimulation von Netzhautimplantaten zu optimieren und dabei im Vergleich zu herkömmlichen Downsampling-Methoden die Erkennungsgenauigkeit auf simulierten retinalen Perzepten signifikant steigert.

Yuli Wu, Ivan Karetic, Johannes Stegmaier + 2 more2026-02-23⚡ eess

HaDR: Applying Domain Randomization for Generating Synthetic Multimodal Dataset for Hand Instance Segmentation in Cluttered Industrial Environments

Diese Studie stellt einen synthetischen RGB-D-Datensatz und vortrainierte Modelle vor, die durch Domain Randomization erzeugt wurden, um robuste, farbunabhängige Hand-Instanzsegmentierung in unstrukturierten industriellen Umgebungen zu ermöglichen und dabei die Leistung bestehender Ansätze zu übertreffen.

Stefan Grushko, Aleš Vysocký, Jakub Chlebek + 1 more2026-02-23💻 cs

Retinal OCT Synthesis with Denoising Diffusion Probabilistic Models for Layer Segmentation

Diese Studie zeigt, dass Denoising Diffusion Probabilistic Models (DDPMs) realistische retinale OCT-Bilder aus groben Skizzen synthetisieren können und damit durch verbesserte Pseudo-Labels oder sogar ausschließlich synthetische Daten die Genauigkeit der Schichtsegmentierung steigern, wodurch der Bedarf an manuellen Annotationen erheblich reduziert wird.

Yuli Wu, Weidong He, Dennis Eschweiler + 5 more2026-02-23⚡ eess

Visual Fixation-Based Retinal Prosthetic Simulation

Diese Studie stellt einen auf visuellen Fixierungen basierenden Simulationsrahmen für Netzhautimplantate vor, der mithilfe von Vision-Transformern und einem trainierbaren Encoder die Informationsübertragung optimiert und damit die Klassifikationsgenauigkeit im Vergleich zu herkömmlichen Downsampling-Methoden signifikant verbessert.

Yuli Wu, Do Dinh Tan Nguyen, Henning Konermann + 3 more2026-02-23💻 cs

GIFT: A Framework Towards Global Interpretable Faithful Textual Explanations of Vision Classifiers

Das Paper stellt GIFT vor, ein Post-hoc-Framework, das durch die Generierung visueller Gegenbeispiele, deren Übersetzung in natürliche Sprache und eine kausale Verifizierung globale, interpretierbare und vertrauenswürdige textliche Erklärungen für die Entscheidungsfindung von Bildklassifikationsmodellen liefert.

Éloi Zablocki, Valentin Gerard, Amaia Cardiel + 3 more2026-02-23💻 cs

SAMa: Material-aware 3D Selection and Segmentation

Die Arbeit stellt SAMa vor, ein optimierungsfreies Verfahren zur materialbasierten 3D-Auswahl und Segmentierung, das durch die Erweiterung von SAM2 und eine effiziente Projektion in eine 3D-Punktwolke konsistente Masken für beliebige 3D-Repräsentationen in Sekunden erzeugt.

Michael Fischer, Iliyan Georgiev, Thibault Groueix + 3 more2026-02-23💻 cs

Data-Efficient Inference of Neural Fluid Fields via SciML Foundation Model

Diese Arbeit zeigt, dass durch die Nutzung von SciML-Grundmodellen als Domänenprior die Datenanforderungen für die Inferenz realer 3D-Fluidfelder erheblich gesenkt und gleichzeitig die Generalisierungsfähigkeit sowie die Vorhersagequalität im Vergleich zu vorherigen Ansätzen signifikant verbessert werden können.

Yuqiu Liu, Jingxuan Xu, Mauricio Soroco + 2 more2026-02-23🤖 cs.LG

Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

Die Studie zeigt, dass eine Verkleinerung der Patch-Größe bis hin zur Pixel-Tokenisierung (1x1) die Leistung von Vision-Transformern und Mamba-Modellen auf verschiedenen Aufgaben konsistent verbessert, was zu einer neuen nicht-kompressiven Paradigmen für das visuelle Verständnis führt.

Feng Wang, Yaodong Yu, Guoyizhe Wei + 4 more2026-02-23💻 cs

A Pragmatic Note on Evaluating Generative Models with Fréchet Inception Distance for Retinal Image Synthesis

Diese Arbeit kritisiert die Verwendung des Fréchet Inception Distance (FID) als alleiniges Evaluierungskriterium für generative Modelle in der Retina-Bildgebung und plädiert stattdessen für eine pragmatische Bewertung durch den direkten Einsatz synthetischer Daten in nachgelagerten Aufgaben wie Klassifikation und Segmentierung.

Yuli Wu, Fucheng Liu, Rüveyda Yilmaz + 3 more2026-02-23🤖 cs.LG

← Zurück Weiter →