cs.CV Arbeiten | Gist.Science

An automatic counting algorithm for the quantification and uncertainty analysis of the number of microglial cells trainable in small and heterogeneous datasets

Diese Arbeit stellt einen automatischen, nicht-parametrischen Kernel-Zähler vor, der die Anzahl von Mikrogliazellen in heterogenen und kleinen Datensätzen quantifiziert, Unsicherheiten schätzt und dabei auf aufwendige Zellendetektion verzichtet.

L. Martino, M. M. Garcia, P. S. Paradas + 1 more2026-02-27⚡ eess

Small Object Detection Model with Spatial Laplacian Pyramid Attention and Multi-Scale Features Enhancement in Aerial Images

Diese Arbeit stellt ein verbessertes Modell zur Erkennung kleiner Objekte in Luftbildern vor, das durch die Integration eines räumlichen Laplace-Pyramiden-Aufmerksamkeitsmoduls, einer Multi-Skalen-Feature-Verbesserung und deformierbarer Faltungen zur Ausrichtung der Feature-Pyramid-Netzwerke die Detektionsleistung auf den Datensätzen VisDrone und DOTA signifikant steigert.

Zhangjian Ji, Huijia Yan, Shaotong Qiao + 2 more2026-02-27💻 cs

D-FINE-seg: Object Detection and Instance Segmentation Framework with multi-backend deployment

Das Paper stellt D-FINE-seg vor, ein Open-Source-Framework, das den D-FINE-Transformer für die Echtzeit-Instanzsegmentierung erweitert und durch eine optimierte Multi-Backend-Pipeline (ONNX, TensorRT, OpenVINO) sowie überlegene F1-Scores auf dem TACO-Datensatz im Vergleich zu YOLO26 überzeugt.

Argo Saakyan, Dmitry Solntsev2026-02-27💻 cs

GeoWorld: Geometric World Models

Das Paper stellt GeoWorld vor, ein geometrisches Weltmodell, das durch die Abbildung latenter Repräsentationen auf hyperbolische Mannigfaltigkeiten und geometrisches Reinforcement Learning die strukturellen Grenzen bestehender energiebasierter Modelle überwindet und die Planungsleistung über mehrere Zeitschritte hinweg signifikant verbessert.

Zeyu Zhang, Danning Li, Ian Reid + 1 more2026-02-27💻 cs

Align then Adapt: Rethinking Parameter-Efficient Transfer Learning in 4D Perception

Die Arbeit stellt PointATA vor, ein parametereffizientes Transferlern-Verfahren für die 4D-Wahrnehmung, das durch eine zweistufige „Align then Adapt"-Strategie die Lücke zwischen 3D- und 4D-Daten schließt und Überanpassung vermeidet, um vortrainierte 3D-Modelle erfolgreich auf dynamische Punktwolken-Videotasks zu übertragen.

Yiding Sun, Jihua Zhu, Haozhe Cheng + 4 more2026-02-27💻 cs

Cytoarchitecture in Words: Weakly Supervised Vision-Language Modeling for Human Brain Microscopy

Die Studie stellt eine schwach überwachte Methode vor, die mithilfe von Labels und synthetischen Texten aus der Literatur bestehende Vision-Modelle für die menschliche Hirnmikroskopie mit Sprachmodellen koppelt, um cytoarchitektonische Merkmale in natürlicher Sprache zu beschreiben, ohne auf umfangreiche manuell gepaarte Bild-Text-Daten angewiesen zu sein.

Matthew Sutton, Katrin Amunts, Timo Dickscheid + 1 more2026-02-27💻 cs

Locally Adaptive Decay Surfaces for High-Speed Face and Landmark Detection with Event Cameras

Die Studie stellt „Locally Adaptive Decay Surfaces" (LADS) vor, eine neuartige Ereignisdarstellung für Event-Kameras, die durch lokale Anpassung der zeitlichen Zerfallsrate sowohl bei niedrigen als auch bei extrem hohen Frequenzen (bis 240 Hz) die Genauigkeit von Gesichts- und Landmarkenerkennung übertrifft und dabei leichtere Netzwerkarchitekturen ermöglicht.

Paul Kielty, Timothy Hanley, Peter Corcoran2026-02-27💻 cs

SpectralMamba-UNet: Frequency-Disentangled State Space Modeling for Texture-Structure Consistent Medical Image Segmentation

Die Arbeit stellt SpectralMamba-UNet vor, ein neuartiges Frequenz-entwirrendes Framework, das durch die Entkopplung von Struktur- und Texturinformationen im Spektralbereich mittels diskreter Kosinustransformation und Mamba-basierter Modellierung die Segmentierungsgenauigkeit medizinischer Bilder verbessert.

Fuhao Zhang, Lei Liu, Jialin Zhang + 2 more2026-02-27💻 cs

FLIGHT: Fibonacci Lattice-based Inference for Geometric Heading in real-Time

Die Arbeit stellt FLIGHT vor, eine neuartige Methode zur Echtzeit-Schätzung der Kamerarichtung aus monokularen Videos, die eine generalisierte Hough-Transformation auf der Einheitskugel unter Verwendung eines Fibonacci-Gitters nutzt, um auch bei hohem Rauschen und Ausreißern eine hohe Genauigkeit und Effizienz zu gewährleisten und so die Leistung von SLAM-Systemen zu verbessern.

David Dirnfeld, Fabien Delattre, Pedro Miraldo + 1 more2026-02-27💻 cs

Devling into Adversarial Transferability on Image Classification: Review, Benchmark, and Evaluation

Diese Arbeit adressiert das Fehlen eines standardisierten Bewertungsrahmens für adversarielle Transferangriffe in der Bildklassifizierung, indem sie eine umfassende Übersicht bestehender Methoden bietet, ein Benchmark-Framework einführt und Strategien zur Verbesserung der Transferierbarkeit sowie potenzielle Verzerrungen bei Vergleichen analysiert.

Xiaosen Wang, Zhijin Ge, Bohan Liu + 5 more2026-02-27🤖 cs.AI

TriLite: Efficient Weakly Supervised Object Localization with Universal Visual Features and Tri-Region Disentanglement

TriLite ist ein effizienter, einstufiger Ansatz für die schwach überwachte Objektlokalisierung, der durch die Nutzung vortrainierter Vision-Transformer und eines TriHead-Moduls zur Entwirrung von Vordergrund-, Hintergrund- und unsicheren Regionen eine neue State-of-the-Art-Leistung bei minimalem Trainierparameterbedarf und ohne aufwändiges End-to-End-Training erreicht.

Arian Sabaghi, José Oramas2026-02-27💻 cs

From Calibration to Refinement: Seeking Certainty via Probabilistic Evidence Propagation for Noisy-Label Person Re-Identification

Die Arbeit stellt CARE vor, ein zweistufiges Framework zur Personensuche mit verrauschten Labels, das durch probabilistische Evidenzpropagierung, eine Evidenzkalibrierung zur Überwindung von Softmax-Überkonfidenz und eine Evidenzverfeinerung mit kompositen Winkelrändern sowie sphärischer Gewichtung eine zuverlässigere Merkmalsdiskriminierung ermöglicht.

Xin Yuan, Zhiyong Zhang, Xin Xu + 2 more2026-02-27💻 cs

No Labels, No Look-Ahead: Unsupervised Online Video Stabilization with Classical Priors

Die Autoren stellen ein unüberwachtes, online-fähiges Framework zur Videostabilisierung vor, das auf klassischen Priors basiert, um die Nachteile datenhungriger Deep-Learning-Ansätze zu umgehen, und führen zudem einen neuen multimodalen UAV-Datensatz ein, um die Stabilisierung auch in anspruchsvollen Szenarien wie der nächtlichen Fernerkundung zu ermöglichen.

Tao Liu, Gang Wan, Kan Ren + 1 more2026-02-27💻 cs

Partial recovery of meter-scale surface weather

Die Studie demonstriert, dass sich durch die Kombination von grob aufgelösten atmosphärischen Zuständen mit hochauflösenden Satellitendaten und spärlichen Bodenmessungen ein physikalisch kohärenter, meter-genaues Wetterfeld für die gesamte USA rekonstruieren lässt, das signifikant geringere Fehler aufweist als bestehende Analysen wie ERA5.

Jonathan Giezendanner, Qidong Yang, Eric Schmitt + 7 more2026-02-27🤖 cs.LG

Learning Continuous Wasserstein Barycenter Space for Generalized All-in-One Image Restoration

Die Arbeit stellt BaryIR vor, ein Framework zur allgemeinen Bildrestauration, das durch die Entkopplung degradationsunabhängiger Merkmale im Wasserstein-Baryzentrums-Raum und spezifischer Restmerkmale eine robuste Generalisierung auf unbekannte und gemischte Degradationen ermöglicht.

Xiaole Tang, Xiaoyi He, Jiayi Xu + 2 more2026-02-27💻 cs

Latent Gaussian Splatting for 4D Panoptic Occupancy Tracking

Die Arbeit stellt LaGS vor, eine neue Methode zur 4D-panoptischen Occupancy-Tracking, die End-to-End-Tracking mit maskenbasierter Segmentierung kombiniert und durch einen neuartigen latenten Gaussian-Splatting-Ansatz eine effiziente Aggregation von Multi-View-Daten in 3D-Voxel-Grids ermöglicht, wodurch sie auf den Datensätzen Occ3D nuScenes und Waymo den State-of-the-Art erreicht.

Maximilian Luz, Rohit Mohan, Thomas Nürnberg + 3 more2026-02-27🤖 cs.AI

Phys-3D: Physics-Constrained Real-Time Crowd Tracking and Counting on Railway Platforms

Die Arbeit stellt Phys-3D vor, ein physikbasiertes Echtzeit-System zur zuverlässigen Personenanzählung auf Bahnsteigen aus einem fahrenden Zug, das durch die Integration von 3D-Bewegungsmodellen und einer virtuellen Zählzone trotz starker Verdeckungen und Kamerabewegungen eine Fehlerquote von nur 2,97 % erreicht.

Bin Zeng, Johannes Künzel, Anna Hilsmann + 1 more2026-02-27💻 cs

FairQuant: Fairness-Aware Mixed-Precision Quantization for Medical Image Classification

Die Arbeit stellt FairQuant vor, ein Framework für die faire gemischte Präzisionsquantisierung in der medizinischen Bildklassifizierung, das durch die gemeinsame Optimierung von Gewichten und Bitzuweisungen unter Fairness-Regularisierung die Genauigkeit der Worst-Group-Leistung im Vergleich zu herkömmlichen Quantisierungsmethoden verbessert.

Thomas Woergaard, Raghavendra Selvan2026-02-27🤖 cs.LG

ColoDiff: Integrating Dynamic Consistency With Content Awareness for Colonoscopy Video Generation

Das Paper stellt ColoDiff vor, ein diffusionsbasiertes Framework, das durch die Integration von Zeit- und Inhaltsbewusstheit sowie eine nicht-Markovsche Abtaststrategie dynamisch konsistente und klinisch steuerbare Koloskopie-Videos zur Bewältigung von Datenknappheit und zur Unterstützung der Diagnosegenerierung erzeugt.

Junhu Fu, Shuyu Liang, Wutong Li + 9 more2026-02-27🤖 cs.AI

Through BrokenEyes: How Eye Disorders Impact Face Detection?

Diese Arbeit entwickelt ein computergestütztes Framework namens BrokenEyes, um die Auswirkungen von fünf häufigen Augenerkrankungen auf die Gesichtererkennung und neuronale Merkmalsdarstellungen in Deep-Learning-Modellen zu simulieren und zu analysieren.

Prottay Kumar Adhikary2026-02-27💻 cs

← Zurück Weiter →