cs.CV Arbeiten | Gist.Science

RegTrack: Simplicity Beneath Complexity in Robust Multi-Modal 3D Multi-Object Tracking

RegTrack ist ein effizienter und robuster 3D-Multi-Object-Tracking-Ansatz, der durch einen einheitlichen Tri-Cue-Encoder, der von der Yang-Mills-Eichtheorie inspiriert ist, komplexe Assoziationsmetriken und klassenspezifische Priors überflüssig macht und dabei nur 2,6 Millionen Parameter sowie reine Punktwolken-Eingaben für eine überlegene Leistung auf KITTI und nuScenes nutzt.

Lipeng Gu, Xuefeng Yan, Song Wang + 1 more2026-02-25💻 cs

Implementation of neural network operators with applications to remote sensing data

Diese Arbeit stellt zwei Algorithmen auf Basis multidimensionaler neuronaler Netzwerkoperatoren vor, die zur Modellierung und Verbesserung von Fernerkundungsdaten eingesetzt werden und in numerischen Experimenten mit dem RETINA-Datensatz eine überlegene Leistung gegenüber klassischen Interpolationsmethoden, insbesondere hinsichtlich des SSIM-Werts, zeigen.

Danilo Costarelli, Michele Piconi2026-02-25💻 cs

Two Models for Surface Segmentation using the Total Variation of the Normal Vector

Die Autoren stellen einen variationsbasierten Ansatz zur Segmentierung von Dreiecksnetzen vor, der zwei Total-Variations-Regularisierer vergleicht und durch eine Split-Bregman-Methode sowie einen effizienten Newton-Algorithmus auf der Mannigfaltigkeit gelöst wird, wobei der zweite Regularisierer trotz höherer Kosten robustere Ergebnisse liefert.

Manuel Weiß, Lukas Baumgärtner, Laura Weigl + 3 more2026-02-25💻 cs

Revisiting the Generalization Problem of Low-level Vision Models Through the Lens of Image Deraining

Diese Arbeit untersucht das Generalisierungsproblem von Low-Level-Vision-Modellen am Beispiel der Bildentwässerung und zeigt, dass es auf „Shortcut Learning" durch ein Ungleichgewicht zwischen Bildinhalt und Degradation zurückzuführen ist, woraufhin sie Strategien zur Komplexitätsbalance und zur Nutzung generativer Priors zur Verbesserung der Robustheit vorschlägt.

Jinfan Hu, Zhiyuan You, Jinjin Gu + 3 more2026-02-25💻 cs

A deep learning framework for efficient pathology image analysis

Die Studie stellt EAGLE vor, ein effizientes Deep-Learning-Framework, das durch die selektive Analyse relevanter Geweberegionen die Rechenzeit für die Pathologiebildanalyse um über 99 % reduziert und dabei die Genauigkeit bestehender State-of-the-Art-Modelle deutlich übertrifft.

Peter Neidlinger, Tim Lenz, Sebastian Foersch + 24 more2026-02-25💻 cs

SEED: Towards More Accurate Semantic Evaluation for Visual Brain Decoding

Die Arbeit stellt SEED vor, eine neue Metrik zur semantischen Evaluierung visueller Gehirn-Decodierungsmodelle, die durch menschliche Bewertungen validiert wurde und zeigt, dass bestehende Metriken sowie State-of-the-Art-Modelle oft kritische semantische Informationen übersehen, wobei die Studie die zugehörigen Daten und den Code zur Verfügung stellt.

Juhyeon Park, Peter Yongho Kim, Jiook Cha + 2 more2026-02-25🤖 cs.LG

VISIONLOGIC: From Neuron Activations to Causally Grounded Concept Rules for Vision Models

Das Paper stellt VisionLogic vor, ein neuartiges neural-symbolisches Framework, das durch ablationsbasierte kausale Tests neuronale Aktivierungen in verlässliche, hierarchische logische Regeln über visuelle Konzepte übersetzt und so die Interpretierbarkeit von Bildmodellen im Vergleich zu früheren Methoden signifikant verbessert.

Chuqin Geng, Yuhe Jiang, Ziyu Zhao + 4 more2026-02-25💻 cs

Enhancing Out-of-Distribution Detection with Extended Logit Normalization

Die Arbeit stellt ELogitNorm vor, eine hyperparameterfreie Erweiterung von LogitNorm, die durch einen feature-distanzbewussten Verlustterm die Feature-Kollaps-Problematik löst und gleichzeitig die Out-of-Distribution-Erkennung sowie die Kalibrierung von In-Distribution-Konfidenzen verbessert, ohne die Klassifikationsgenauigkeit zu beeinträchtigen.

Yifan Ding, Xixi Liu, Jonas Unger + 1 more2026-02-25💻 cs

An Efficient LiDAR-Camera Fusion Network for Multi-Class 3D Dynamic Object Detection and Trajectory Prediction

Die Autoren stellen ein effizientes Multi-Modalitäts-Framework vor, das LiDAR- und Kameradaten mittels der Modelle UniMT und RTMCT kombiniert, um in Echtzeit dynamische Objekte wie Fußgänger und Fahrzeuge zu detektieren und deren Trajektorien vorherzusagen, was sich durch hohe Genauigkeit und eine Echtzeit-Leistung von 13,9 FPS auf ressourcenbeschränkten Robotern auszeichnet.

Yushen He, Lei Zhao, Tianchen Deng + 2 more2026-02-25🤖 cs.AI

Reproducing and Improving CheXNet: Deep Learning for Chest X-ray Disease Classification

Diese Studie reproduziert den CheXNet-Algorithmus auf dem NIH ChestX-ray14-Datensatz, verbessert ihn durch alternative Ansätze und erzielt mit dem besten Modell eine durchschnittliche AUC-ROC von 0,85 sowie einen F1-Score von 0,39 für die Klassifizierung von 14 verschiedenen Lungenerkrankungen.

Daniel J. Strick, Carlos Garcia, Anthony Huang + 1 more2026-02-25⚡ eess

HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning

Die Arbeit stellt HoloLLM vor, ein multimodales Sprachmodell, das durch die Integration ungewöhnlicher Sensormodalitäten wie LiDAR, Infrarot, mmWave-Radar und WiFi sowie durch einen neuartigen Universal Modality-Injection Projector (UMIP) und eine kollaborative Datenerstellung robustere menschenzentrierte Wahrnehmung und Schlussfolgerung in smarten Umgebungen ermöglicht.

Chuhao Zhou, Jianfei Yang2026-02-25💬 cs.CL

Learning Hierarchical Sparse Transform Coding for 3DGS Compression

Die Arbeit stellt eine Trainingszeit-Transformationskodierung (TTC) für 3D-Gaussian-Splatting vor, die durch eine hierarchische Kombination aus KLT und einem spärlichkeitsbewussten neuronalen Transform die Redundanzreduktion verbessert und so eine überlegene Rate-Distortion-Leistung bei schnellem Decodieren im Vergleich zu bestehenden Methoden erzielt.

Hao Xu, Xiaolin Wu, Xi Zhang2026-02-25⚡ eess

SpikePingpong: Spike Vision-based Fast-Slow Pingpong Robot System

Das Paper stellt SpikePingpong vor, ein neuartiges Roboter-Tischtennissystem, das durch die Kombination von spike-basierter Vision in einer Fast-Slow-Architektur und imitationsbasiertem Bewegungsplanung eine hohe Trefferpräzision bei schnellen Ballbewegungen erreicht.

Hao Wang, Chengkai Hou, Xianglong Li + 7 more2026-02-25💻 cs

Improving Motion in Image-to-Video Models via Adaptive Low-Pass Guidance

Die Arbeit stellt die adaptive Low-Pass-Guidance (ALG) vor, eine trainingsfreie Methode, die durch die gezielte Dämpfung hochfrequenter Details im Eingabebild während der frühen Denoisingschritte die Bewegungsqualität von Image-to-Video-Modellen signifikant verbessert, ohne dabei die Bildqualität oder die Textausrichtung zu beeinträchtigen.

June Suk Choi, Kyungmin Lee, Sihyun Yu + 3 more2026-02-25💻 cs

Peering into the Unknown: Active View Selection with Neural Uncertainty Maps for 3D Reconstruction

Die vorgestellte Arbeit führt UPNet ein, ein neuronales Netzwerk zur Vorhersage von Unsicherheitskarten aus einzelnen Bildern, das durch die Aggregation dieser Karten eine effiziente und generalisierbare aktive View-Selection für die 3D-Rekonstruktion ermöglicht, welche die Rechenkosten drastisch senkt und dennoch eine hohe Rekonstruktionsqualität erreicht.

Zhengquan Zhang, Feng Xu, Mengmi Zhang2026-02-25🤖 cs.AI

Addressing Camera Sensors Faults in Vision-Based Navigation: Simulation and Dataset Development

Diese Studie adressiert die Herausforderungen bei der Zuverlässigkeit von visuellen Navigationssystemen im Weltraum durch die systematische Charakterisierung von Kamerafehlern und die Entwicklung eines Simulationsrahmens zur Generierung eines synthetischen Datensatzes für das Training von KI-basierten Fehlererkennungsalgorithmen.

Riccardo Gallon, Fabian Schiemenz, Alessandra Menicucci + 1 more2026-02-25🤖 cs.AI

NRSeg: Noise-Resilient Learning for BEV Semantic Segmentation via Driving World Models

Die Arbeit stellt NRSeg vor, ein rauschresistentes Lernframework für die semantische Segmentierung aus der Vogelperspektive (BEV), das durch die Nutzung synthetischer Daten aus Fahrweltmodellen sowie neuartige Komponenten wie eine Perspektiv-Geometrie-Konsistenzmetrik, eine parallele Vorhersage mit Bin-Verteilungen und ein hierarchisches lokales semantisches Ausschlussmodul die Leistung in unüberwachten und halbüberwachten Szenarien signifikant verbessert.

Siyu Li, Fei Teng, Yihong Cao + 3 more2026-02-25⚡ eess

SFATTI: Spiking FPGA Accelerator for Temporal Task-driven Inference -- A Case Study on MNIST

Diese Arbeit stellt SFATTI vor, einen auf dem Open-Source-Framework Spiker+ basierenden FPGA-Beschleuniger für Spiking Neural Networks, der durch die automatische Generierung von HDL-Code energieeffiziente und latenzarme Inferenz für die MNIST-Bilderkennung ermöglicht.

Alessio Caviglia, Filippo Marostica, Alessio Carpegna + 2 more2026-02-25💻 cs

Low-Latency Event-Based Velocimetry for Quadrotor Control in a Narrow Pipe

Diese Arbeit stellt das erste geschlossene Regelungs-System für den Schwebeflug von Quadrotoren in engen Rohren vor, das durch eine latenzarme, ereignisbasierte Rauchvelocimetrie und ein lernbasiertes Regler-Design in Echtzeit aerodynamische Störungen erfasst und kompensiert, um Kollisionen zu verhindern.

Leonard Bauersfeld, Davide Scaramuzza2026-02-25💻 cs

FedGIN: Federated Learning with Dynamic Global Intensity Non-linear Augmentation for Organ Segmentation using Multi-modal Images

Der Artikel stellt FedGIN vor, ein Framework für das Federated Learning, das durch eine dynamische globale nichtlineare Intensitätsaugmentierung eine robuste und datenschutzkonforme Organsegmentierung über verschiedene Bildgebungsmodalitäten hinweg ermöglicht und dabei signifikante Verbesserungen der Genauigkeit gegenüber herkömmlichen Ansätzen erzielt.

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen + 1 more2026-02-25🤖 cs.AI

← Zurück Weiter →