cs.CV Arbeiten | Gist.Science

Interpretable Medical Image Classification using Prototype Learning and Privileged Information

Die Arbeit stellt Proto-Caps vor, ein interpretierbares Deep-Learning-Modell, das Kapselnetzwerke, Prototypenlernen und privilegierte Informationen kombiniert, um auf dem LIDC-IDRI-Datensatz sowohl die Vorhersagegenauigkeit für Lungenknoten als auch die visuelle Nachvollziehbarkeit der Diagnose im Vergleich zu bestehenden Methoden signifikant zu verbessern.

Luisa Gallee, Meinrad Beer, Michael Goetz2026-02-25🤖 cs.AI

Coherent and Multi-modality Image Inpainting via Latent Space Optimization

Die Arbeit stellt PILOT vor, eine Optimierungsmethode im latenten Raum, die durch semantische Zentrierung und einen Hintergrund-Erhaltungslauf die Kohärenz und Vielseitigkeit von Bildinpainting mit großen, vortrainierten Diffusionsmodellen ohne Nachtraining verbessert.

Lingzhi Pan, Tong Zhang, Bingyuan Chen + 4 more2026-02-25💻 cs

ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation

Die Arbeit stellt ScaleDepth vor, eine neuartige Methode zur monokularen metrischen Tiefenschätzung, die durch die Zerlegung in Szenenskala und relative Tiefe sowie die Nutzung semantischer Informationen eine robuste Generalisierung über verschiedene Innen- und Außenszenarien hinweg ohne Nachjustierung ermöglicht.

Ruijie Zhu, Chuxin Wang, Ziyang Song + 3 more2026-02-25💻 cs

DreamBarbie: Text to Barbie-Style 3D Avatars

Die Arbeit stellt DreamBarbie vor, ein neuartiges textgesteuertes Framework, das hochwertige, animierbare 3D-Avatare im Barbie-Stil mit entkoppelten Accessoires und simulationsbereiten Kleidungsstücken erzeugt, indem es eine SDF-basierte Initialisierung und spezialisierte Diffusionsmodelle nutzt, um geometrische Artefakte zu minimieren und eine 100-fache Beschleunigung zu erreichen.

Xiaokun Sun, Zhenyu Zhang, Ying Tai + 3 more2026-02-25💻 cs

UWF-RI2FA: Generating Multi-frame Ultrawide-field Fluorescein Angiography from Ultrawide-field Retinal Imaging Improves Diabetic Retinopathy Stratification

Die Studie stellt ein auf Generativer Künstlicher Intelligenz basiertes Verfahren vor, das aus nicht-invasiven ultraweitfeldigen Retinabildern realistische fluoresceinangiografische Bilder generiert und dadurch die Klassifizierung der diabetischen Retinopathie signifikant verbessert, ohne dass ein intravenöser Farbstoff injiziert werden muss.

Ruoyu Chen, Kezheng Xu, Kangyan Zheng + 4 more2026-02-25⚡ eess

RegTrack: Simplicity Beneath Complexity in Robust Multi-Modal 3D Multi-Object Tracking

RegTrack ist ein effizienter und robuster 3D-Multi-Object-Tracking-Ansatz, der durch einen einheitlichen Tri-Cue-Encoder, der von der Yang-Mills-Eichtheorie inspiriert ist, komplexe Assoziationsmetriken und klassenspezifische Priors überflüssig macht und dabei nur 2,6 Millionen Parameter sowie reine Punktwolken-Eingaben für eine überlegene Leistung auf KITTI und nuScenes nutzt.

Lipeng Gu, Xuefeng Yan, Song Wang + 1 more2026-02-25💻 cs

Implementation of neural network operators with applications to remote sensing data

Diese Arbeit stellt zwei Algorithmen auf Basis multidimensionaler neuronaler Netzwerkoperatoren vor, die zur Modellierung und Verbesserung von Fernerkundungsdaten eingesetzt werden und in numerischen Experimenten mit dem RETINA-Datensatz eine überlegene Leistung gegenüber klassischen Interpolationsmethoden, insbesondere hinsichtlich des SSIM-Werts, zeigen.

Danilo Costarelli, Michele Piconi2026-02-25💻 cs

Two Models for Surface Segmentation using the Total Variation of the Normal Vector

Die Autoren stellen einen variationsbasierten Ansatz zur Segmentierung von Dreiecksnetzen vor, der zwei Total-Variations-Regularisierer vergleicht und durch eine Split-Bregman-Methode sowie einen effizienten Newton-Algorithmus auf der Mannigfaltigkeit gelöst wird, wobei der zweite Regularisierer trotz höherer Kosten robustere Ergebnisse liefert.

Manuel Weiß, Lukas Baumgärtner, Laura Weigl + 3 more2026-02-25💻 cs

Revisiting the Generalization Problem of Low-level Vision Models Through the Lens of Image Deraining

Diese Arbeit untersucht das Generalisierungsproblem von Low-Level-Vision-Modellen am Beispiel der Bildentwässerung und zeigt, dass es auf „Shortcut Learning" durch ein Ungleichgewicht zwischen Bildinhalt und Degradation zurückzuführen ist, woraufhin sie Strategien zur Komplexitätsbalance und zur Nutzung generativer Priors zur Verbesserung der Robustheit vorschlägt.

Jinfan Hu, Zhiyuan You, Jinjin Gu + 3 more2026-02-25💻 cs

A deep learning framework for efficient pathology image analysis

Die Studie stellt EAGLE vor, ein effizientes Deep-Learning-Framework, das durch die selektive Analyse relevanter Geweberegionen die Rechenzeit für die Pathologiebildanalyse um über 99 % reduziert und dabei die Genauigkeit bestehender State-of-the-Art-Modelle deutlich übertrifft.

Peter Neidlinger, Tim Lenz, Sebastian Foersch + 24 more2026-02-25💻 cs

SEED: Towards More Accurate Semantic Evaluation for Visual Brain Decoding

Die Arbeit stellt SEED vor, eine neue Metrik zur semantischen Evaluierung visueller Gehirn-Decodierungsmodelle, die durch menschliche Bewertungen validiert wurde und zeigt, dass bestehende Metriken sowie State-of-the-Art-Modelle oft kritische semantische Informationen übersehen, wobei die Studie die zugehörigen Daten und den Code zur Verfügung stellt.

Juhyeon Park, Peter Yongho Kim, Jiook Cha + 2 more2026-02-25🤖 cs.LG

VISIONLOGIC: From Neuron Activations to Causally Grounded Concept Rules for Vision Models

Das Paper stellt VisionLogic vor, ein neuartiges neural-symbolisches Framework, das durch ablationsbasierte kausale Tests neuronale Aktivierungen in verlässliche, hierarchische logische Regeln über visuelle Konzepte übersetzt und so die Interpretierbarkeit von Bildmodellen im Vergleich zu früheren Methoden signifikant verbessert.

Chuqin Geng, Yuhe Jiang, Ziyu Zhao + 4 more2026-02-25💻 cs

Enhancing Out-of-Distribution Detection with Extended Logit Normalization

Die Arbeit stellt ELogitNorm vor, eine hyperparameterfreie Erweiterung von LogitNorm, die durch einen feature-distanzbewussten Verlustterm die Feature-Kollaps-Problematik löst und gleichzeitig die Out-of-Distribution-Erkennung sowie die Kalibrierung von In-Distribution-Konfidenzen verbessert, ohne die Klassifikationsgenauigkeit zu beeinträchtigen.

Yifan Ding, Xixi Liu, Jonas Unger + 1 more2026-02-25💻 cs

An Efficient LiDAR-Camera Fusion Network for Multi-Class 3D Dynamic Object Detection and Trajectory Prediction

Die Autoren stellen ein effizientes Multi-Modalitäts-Framework vor, das LiDAR- und Kameradaten mittels der Modelle UniMT und RTMCT kombiniert, um in Echtzeit dynamische Objekte wie Fußgänger und Fahrzeuge zu detektieren und deren Trajektorien vorherzusagen, was sich durch hohe Genauigkeit und eine Echtzeit-Leistung von 13,9 FPS auf ressourcenbeschränkten Robotern auszeichnet.

Yushen He, Lei Zhao, Tianchen Deng + 2 more2026-02-25🤖 cs.AI

Reproducing and Improving CheXNet: Deep Learning for Chest X-ray Disease Classification

Diese Studie reproduziert den CheXNet-Algorithmus auf dem NIH ChestX-ray14-Datensatz, verbessert ihn durch alternative Ansätze und erzielt mit dem besten Modell eine durchschnittliche AUC-ROC von 0,85 sowie einen F1-Score von 0,39 für die Klassifizierung von 14 verschiedenen Lungenerkrankungen.

Daniel J. Strick, Carlos Garcia, Anthony Huang + 1 more2026-02-25⚡ eess

HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning

Die Arbeit stellt HoloLLM vor, ein multimodales Sprachmodell, das durch die Integration ungewöhnlicher Sensormodalitäten wie LiDAR, Infrarot, mmWave-Radar und WiFi sowie durch einen neuartigen Universal Modality-Injection Projector (UMIP) und eine kollaborative Datenerstellung robustere menschenzentrierte Wahrnehmung und Schlussfolgerung in smarten Umgebungen ermöglicht.

Chuhao Zhou, Jianfei Yang2026-02-25💬 cs.CL

Learning Hierarchical Sparse Transform Coding for 3DGS Compression

Die Arbeit stellt eine Trainingszeit-Transformationskodierung (TTC) für 3D-Gaussian-Splatting vor, die durch eine hierarchische Kombination aus KLT und einem spärlichkeitsbewussten neuronalen Transform die Redundanzreduktion verbessert und so eine überlegene Rate-Distortion-Leistung bei schnellem Decodieren im Vergleich zu bestehenden Methoden erzielt.

Hao Xu, Xiaolin Wu, Xi Zhang2026-02-25⚡ eess

SpikePingpong: Spike Vision-based Fast-Slow Pingpong Robot System

Das Paper stellt SpikePingpong vor, ein neuartiges Roboter-Tischtennissystem, das durch die Kombination von spike-basierter Vision in einer Fast-Slow-Architektur und imitationsbasiertem Bewegungsplanung eine hohe Trefferpräzision bei schnellen Ballbewegungen erreicht.

Hao Wang, Chengkai Hou, Xianglong Li + 7 more2026-02-25💻 cs

Improving Motion in Image-to-Video Models via Adaptive Low-Pass Guidance

Die Arbeit stellt die adaptive Low-Pass-Guidance (ALG) vor, eine trainingsfreie Methode, die durch die gezielte Dämpfung hochfrequenter Details im Eingabebild während der frühen Denoisingschritte die Bewegungsqualität von Image-to-Video-Modellen signifikant verbessert, ohne dabei die Bildqualität oder die Textausrichtung zu beeinträchtigen.

June Suk Choi, Kyungmin Lee, Sihyun Yu + 3 more2026-02-25💻 cs

Peering into the Unknown: Active View Selection with Neural Uncertainty Maps for 3D Reconstruction

Die vorgestellte Arbeit führt UPNet ein, ein neuronales Netzwerk zur Vorhersage von Unsicherheitskarten aus einzelnen Bildern, das durch die Aggregation dieser Karten eine effiziente und generalisierbare aktive View-Selection für die 3D-Rekonstruktion ermöglicht, welche die Rechenkosten drastisch senkt und dennoch eine hohe Rekonstruktionsqualität erreicht.

Zhengquan Zhang, Feng Xu, Mengmi Zhang2026-02-25🤖 cs.AI

← Zurück Weiter →