cs.CV Arbeiten | Gist.Science

No Labels, No Look-Ahead: Unsupervised Online Video Stabilization with Classical Priors

Die Autoren stellen ein unüberwachtes, online-fähiges Framework zur Videostabilisierung vor, das auf klassischen Priors basiert, um die Nachteile datenhungriger Deep-Learning-Ansätze zu umgehen, und führen zudem einen neuen multimodalen UAV-Datensatz ein, um die Stabilisierung auch in anspruchsvollen Szenarien wie der nächtlichen Fernerkundung zu ermöglichen.

Tao Liu, Gang Wan, Kan Ren + 1 more2026-02-27💻 cs

Partial recovery of meter-scale surface weather

Die Studie demonstriert, dass sich durch die Kombination von grob aufgelösten atmosphärischen Zuständen mit hochauflösenden Satellitendaten und spärlichen Bodenmessungen ein physikalisch kohärenter, meter-genaues Wetterfeld für die gesamte USA rekonstruieren lässt, das signifikant geringere Fehler aufweist als bestehende Analysen wie ERA5.

Jonathan Giezendanner, Qidong Yang, Eric Schmitt + 7 more2026-02-27🤖 cs.LG

Learning Continuous Wasserstein Barycenter Space for Generalized All-in-One Image Restoration

Die Arbeit stellt BaryIR vor, ein Framework zur allgemeinen Bildrestauration, das durch die Entkopplung degradationsunabhängiger Merkmale im Wasserstein-Baryzentrums-Raum und spezifischer Restmerkmale eine robuste Generalisierung auf unbekannte und gemischte Degradationen ermöglicht.

Xiaole Tang, Xiaoyi He, Jiayi Xu + 2 more2026-02-27💻 cs

Latent Gaussian Splatting for 4D Panoptic Occupancy Tracking

Die Arbeit stellt LaGS vor, eine neue Methode zur 4D-panoptischen Occupancy-Tracking, die End-to-End-Tracking mit maskenbasierter Segmentierung kombiniert und durch einen neuartigen latenten Gaussian-Splatting-Ansatz eine effiziente Aggregation von Multi-View-Daten in 3D-Voxel-Grids ermöglicht, wodurch sie auf den Datensätzen Occ3D nuScenes und Waymo den State-of-the-Art erreicht.

Maximilian Luz, Rohit Mohan, Thomas Nürnberg + 3 more2026-02-27🤖 cs.AI

Phys-3D: Physics-Constrained Real-Time Crowd Tracking and Counting on Railway Platforms

Die Arbeit stellt Phys-3D vor, ein physikbasiertes Echtzeit-System zur zuverlässigen Personenanzählung auf Bahnsteigen aus einem fahrenden Zug, das durch die Integration von 3D-Bewegungsmodellen und einer virtuellen Zählzone trotz starker Verdeckungen und Kamerabewegungen eine Fehlerquote von nur 2,97 % erreicht.

Bin Zeng, Johannes Künzel, Anna Hilsmann + 1 more2026-02-27💻 cs

FairQuant: Fairness-Aware Mixed-Precision Quantization for Medical Image Classification

Die Arbeit stellt FairQuant vor, ein Framework für die faire gemischte Präzisionsquantisierung in der medizinischen Bildklassifizierung, das durch die gemeinsame Optimierung von Gewichten und Bitzuweisungen unter Fairness-Regularisierung die Genauigkeit der Worst-Group-Leistung im Vergleich zu herkömmlichen Quantisierungsmethoden verbessert.

Thomas Woergaard, Raghavendra Selvan2026-02-27🤖 cs.LG

ColoDiff: Integrating Dynamic Consistency With Content Awareness for Colonoscopy Video Generation

Das Paper stellt ColoDiff vor, ein diffusionsbasiertes Framework, das durch die Integration von Zeit- und Inhaltsbewusstheit sowie eine nicht-Markovsche Abtaststrategie dynamisch konsistente und klinisch steuerbare Koloskopie-Videos zur Bewältigung von Datenknappheit und zur Unterstützung der Diagnosegenerierung erzeugt.

Junhu Fu, Shuyu Liang, Wutong Li + 9 more2026-02-27🤖 cs.AI

Through BrokenEyes: How Eye Disorders Impact Face Detection?

Diese Arbeit entwickelt ein computergestütztes Framework namens BrokenEyes, um die Auswirkungen von fünf häufigen Augenerkrankungen auf die Gesichtererkennung und neuronale Merkmalsdarstellungen in Deep-Learning-Modellen zu simulieren und zu analysieren.

Prottay Kumar Adhikary2026-02-27💻 cs

Plug-and-Play Diffusion Meets ADMM: Dual-Variable Coupling for Robust Medical Image Reconstruction

Die vorgestellte Arbeit führt Dual-Coupled PnP Diffusion mit spektraler Homogenisierung ein, um die durch fehlende Gedächtniseffekte verursachte Verzerrung und die durch strukturierte Residuen ausgelösten Halluzinationen bei der medizinischen Bildrekonstruktion zu überwinden und so eine konvergente, hochpräzise Lösung zu gewährleisten.

Chenhe Du, Xuanyu Tian, Qing Wu + 4 more2026-02-27⚡ eess

Multidimensional Task Learning: A Unified Tensor Framework for Computer Vision Tasks

Diese Arbeit stellt Multidimensionales Aufgabenlernen (MTL) als ein einheitliches tensorbasiertes mathematisches Framework vor, das auf verallgemeinerten Einstein-MLPs beruht und durch den Verzicht auf strukturelles Flattening eine natürlichere und ausdrucksstärkere Formulierung von Computer-Vision-Aufgaben ermöglicht als herkömmliche matrixbasierte Ansätze.

Alaa El Ichi, Khalide Jbilou2026-02-27🔢 math

UniScale: Unified Scale-Aware 3D Reconstruction for Multi-View Understanding via Prior Injection for Robotic Perception

Das Paper stellt UniScale vor, ein einheitliches, skalierbares 3D-Rekonstruktionsframework für die robotische Wahrnehmung, das durch modulare Integration geometrischer Priors und einen einzigen Feed-Forward-Netzwerk metrische Tiefen- und Kameraparameter aus Multi-View-Bildern schätzt, ohne dass ein Training von Grund auf erforderlich ist.

Mohammad Mahdavian, Gordon Tan, Binbin Xu + 3 more2026-02-27💻 cs

Large Multimodal Models as General In-Context Classifiers

Die Arbeit zeigt, dass Large Multimodal Models (LMMs) durch In-Context-Learning und die vorgeschlagene, trainingsfreie Methode CIRCLE sowohl in geschlossenen als auch in offenen Klassifizierungsszenarien wettbewerbsfähige Alternativen zu spezialisierten Contrastive Vision-Language-Modellen darstellen.

Marco Garosi, Matteo Farina, Alessandro Conti + 2 more2026-02-27💻 cs

Skarimva: Skeleton-based Action Recognition is a Multi-view Application

Die Arbeit zeigt, dass die Verwendung mehrerer Kameraperspektiven zur Triangulation präziserer 3D-Skelettdaten die Leistung von Skelett-basierten Aktionserkennungssystemen erheblich verbessert und daher als Standard für zukünftige Forschung empfohlen wird.

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-02-27💻 cs

Spatio-Temporal Token Pruning for Efficient High-Resolution GUI Agents

Die Arbeit stellt GUIPruner vor, ein training-freies Framework, das durch zeitlich adaptive Auflösung und schichtweise strukturbewusste Pruning die Effizienz von hochauflösenden GUI-Agenten drastisch steigert, ohne deren Genauigkeit zu beeinträchtigen.

Zhou Xu, Bowen Zhou, Qi Wang + 2 more2026-02-27🤖 cs.AI

Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

Die Arbeit stellt RaWMPC vor, ein einheitliches Framework für das autonome Fahren, das durch die Kombination eines risikobewussten Weltmodells und einer selbst-evaluierenden Destillation zuverlässige, generalisierbare Entscheidungen in seltenen Szenarien trifft, ohne auf Experten-Demonstrationen angewiesen zu sein.

Jiangxin Sun, Feng Xue, Teng Long + 4 more2026-02-27🤖 cs.AI

Decomposing Private Image Generation via Coarse-to-Fine Wavelet Modeling

Diese Arbeit stellt einen spektralen Differenziellen-Privatsphäre-Rahmen vor, der die Bildgenerierung durch eine zweistufige Methode verbessert, bei der ein privates Modell nur die niedrigfrequenten Wavelet-Koeffizienten für grobe Strukturen lernt, während hochauflösende Details über ein öffentliches Super-Resolution-Modell hinzugefügt werden, um so die Bildqualität bei starken Privatsphäre-Garantien zu erhalten.

Jasmine Bayrooti, Weiwei Kong, Natalia Ponomareva + 3 more2026-02-27💻 cs

LineGraph2Road: Structural Graph Reasoning on Line Graphs for Road Network Extraction

Der Artikel stellt LineGraph2Road vor, ein Framework, das durch die Umformulierung der Straßenverbindungsvorhersage als binäre Klassifikation auf einer globalen Graphenstruktur und die Anwendung eines Graph-Transformers auf den zugehörigen Liniengraphen den State-of-the-Art bei der automatischen Extraktion von Straßennetzen aus Satellitenbildern erreicht.

Zhengyang Wei, Renzhi Jing, Yiyi He + 1 more2026-02-27💻 cs

PGVMS: A Prompt-Guided Unified Framework for Virtual Multiplex IHC Staining with Pathological Semantic Learning

Die Arbeit stellt PGVMS vor, ein promptgesteuertes, einheitliches Framework, das mithilfe von drei innovativen Strategien – adaptiver Prompt-Steuerung, proteinbewusstem Lernen und prototypenkonsistentem Lernen – virtuelle multiplexe IHC-Färbungen aus H&E-Bildern unter Verwendung von Uniplex-Trainingsdaten erzeugt und dabei semantische Leitlinien, Verteilungskonsistenz und räumliche Ausrichtung verbessert.

Fuqiang Chen, Ranran Zhang, Wanming Hu + 6 more2026-02-27💻 cs

Towards Long-Form Spatio-Temporal Video Grounding

Die Arbeit stellt ART-STVG vor, ein neuartiges AutoRegressives-Transformer-Modell mit speicherbasierten Selektionsmechanismen und einer kaskadierten Architektur, das die Herausforderungen der räumlich-zeitlichen Videoverankerung in langen Videos durch sequenzielle Verarbeitung und effiziente Kontextmodellierung bewältigt.

Xin Gu, Bing Fan, Jiali Yao + 5 more2026-02-27💻 cs

ManifoldGD: Training-Free Hierarchical Manifold Guidance for Diffusion-Based Dataset Distillation

Der Artikel stellt ManifoldGD vor, ein trainingsfreies Framework für die Datensatz-Distillation, das durch hierarchische Clustering-basierte IPCs und eine manigfaltigkeitskonsistente Guidance in Diffusionsmodellen kompakte, aber informationsreiche Datensätze erzeugt, die sowohl die semantische Vielfalt als auch die Bildqualität verbessern.

Ayush Roy, Wei-Yang Alex Lee, Rudrasis Chakraborty + 1 more2026-02-27🤖 cs.LG

← Zurück Weiter →