cs.CV Arbeiten | Gist.Science

NeuCLIP: Efficient Large-Scale CLIP Training with Neural Normalizer Optimization

NeuCLIP ist ein neuartiges Optimierungsframework, das durch die Umformulierung des CLIP-Verlusts mittels konvexer Analyse und die Approximation der Normalisierungsterme über ein kompaktes neuronales Netz mittels Variationsanalyse eine effiziente und präzise Training von CLIP-Modellen auf großen Datensätzen ermöglicht.

Xiyuan Wei, Chih-Jen Lin, Tianbao Yang2026-03-05🤖 cs.LG

Scriboora: Rethinking Human Pose Forecasting

Die Arbeit „Scriboora" stellt eine einheitliche Trainings- und Evaluierungspipeline für die Vorhersage menschlicher Posen vor, zeigt durch die Anpassung moderner Sprachmodelle verbesserte State-of-the-Art-Ergebnisse auf und untersucht die Robustheit gegenüber realistischen Rauschproblemen aus Pose-Schätzungen.

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-03-05💻 cs

MatPedia: A Universal Generative Foundation for High-Fidelity Material Synthesis

Das Paper stellt MatPedia vor, ein universelles generatives Fundamentmodell, das mithilfe einer neuartigen gemeinsamen RGB-PBR-Repräsentation und Video-Diffusionsarchitekturen hochwertige, physikalisch basierte Materialien aus Text oder Bildern erzeugt und dabei verschiedene Aufgaben in einem einzigen Framework vereint.

Di Luo, Shuhui Yang, Mingxin Yang + 6 more2026-03-05💻 cs

VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning

Das Paper stellt VideoChat-M1 vor, ein neuartiges Multi-Agenten-System, das durch eine kollaborative Policy-Planung und Multi-Agenten-Reinforcement-Learning die Videoverständnisfähigkeiten von Multimodalen Large Language Models verbessert und dabei state-of-the-art-Ergebnisse auf acht Benchmarks erzielt.

Boyu Chen, Zikang Wang, Zhengrong Yue + 9 more2026-03-05💻 cs

UniLight: A Unified Representation for Lighting

Das Paper stellt UniLight vor, eine einheitliche latente Repräsentation für Beleuchtung, die durch kontrastives Lernen verschiedene Modalitäten wie Text, Bilder und Umgebungsmaps in einem gemeinsamen Embedding vereint, um eine flexible, modality-übergreifende Manipulation von Licht in visuellen Anwendungen zu ermöglichen.

Zitian Zhang, Iliyan Georgiev, Michael Fischer + 3 more2026-03-05💻 cs

Measurement-Consistent Langevin Corrector for Stabilizing Latent Diffusion Inverse Problem Solvers

Die Arbeit stellt den „Measurement-Consistent Langevin Corrector" (MCLC) vor, einen theoretisch fundierten Plug-and-Play-Modul, der die Instabilität latenter Diffusionslösungsansätze für inverse Probleme durch messungskonsistente Langevin-Aktualisierungen behebt und so eine stabilere und zuverlässigere Lösung im latenten Raum ermöglicht.

Lee Hyoseok, Sohwi Lim, Eunju Cha + 1 more2026-03-05🤖 cs.LG

3D Wavelet-Based Structural Priors for Controlled Diffusion in Whole-Body Low-Dose PET Denoising

Die Studie stellt WCC-Net vor, ein vollständig 3D-diffusionsbasiertes Framework, das durch die Integration von Wavelet-basierten strukturellen Priors in einen vortrainierten Diffusionsbackbone die Rauschunterdrückung bei Ganzkörper-PET-Aufnahmen mit niedriger Dosis verbessert und dabei gleichzeitig die anatomische Konsistenz und die Bildqualität über verschiedene Dosislevel hinweg signifikant steigert.

Peiyuan Jing, Yue Yang, Chun-Wun Cheng + 8 more2026-03-05🤖 cs.AI

Tracing 3D Anatomy in 2D Strokes: A Multi-Stage Projection Driven Approach to Cervical Spine Fracture Identification

Diese Studie stellt einen mehrstufigen, projektionsbasierten Ansatz vor, der durch die Fusion von 2D-Segmentierungen geschätzte 3D-Masken zur Extraktion von Halswirbel-Volumen nutzt und anschließend Ensemble-Modelle aus CNNs und Transformern einsetzt, um Halswirbelsäulenfrakturen mit einer diagnostischen Genauigkeit zu identifizieren, die der von Expertenradiologen vergleichbar ist.

Fabi Nahian Madhurja, Rusab Sarmun, Muhammad E. H. Chowdhury + 3 more2026-03-05🤖 cs.AI

Improving Medical Visual Reinforcement Fine-Tuning via Perception and Reasoning Augmentation

Die Arbeit stellt VRFT-Aug vor, ein visuelles Reinforcement-Fine-Tuning-Framework für den medizinischen Bereich, das durch Strategien zur Augmentierung von Wahrnehmung und Schlussfolgerung – wie Wissensinjektion und belohnungsbasiertes Shaping – die Leistung von Modellen bei medizinischen Bildaufgaben im Vergleich zu herkömmlichen Methoden signifikant verbessert.

Guangjing Yang, ZhangYuan Yu, Ziyuan Qin + 7 more2026-03-05🤖 cs.AI

First International StepUP Competition for Biometric Footstep Recognition: Methods, Results and Remaining Challenges

Die erste internationale StepUP-Wettbewerb für biometrische Schritterkennung präsentierte Ergebnisse und Herausforderungen der neuen UNB StepUP-P150-Datenbank, wobei das beste Team mit einer Generative Reward Machine eine Fehlerrate von 10,77 % erreichte, während die Generalisierung auf unbekanntes Schuhwerk als zentrale offene Aufgabe identifiziert wurde.

Robyn Larracy, Eve MacDonald, Angkoon Phinyomark + 5 more2026-03-05🤖 cs.LG

VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

Der Artikel stellt VidEoMT vor, einen einfachen Encoder-only-Video-Segmentierungsansatz auf Basis von Vision-Transformern, der durch eine leichte Query-Propagierung und -Fusion spezialisierte Tracking-Module eliminiert und dabei eine um den Faktor 5 bis 10 höhere Geschwindigkeit bei wettbewerbsfähiger Genauigkeit erreicht.

Narges Norouzi, Idil Esen Zulfikar, Niccolò Cavagnero + 4 more2026-03-05💻 cs

When Safety Collides: Resolving Multi-Category Harmful Conflicts in Text-to-Image Diffusion via Adaptive Safety Guidance

Die Arbeit stellt Conflict-aware Adaptive Safety Guidance (CASG) vor, ein trainingsfreies Framework, das durch die dynamische Identifizierung und gezielte Anwendung sicherheitsrelevanter Richtungen für spezifische Kategorien Konflikte zwischen verschiedenen Schadenskategorien bei Text-zu-Bild-Diffusionsmodellen auflöst und so die schädliche Ausgaberate im Vergleich zu bestehenden Methoden signifikant senkt.

Yongli Xiang, Ziming Hong, Zhaoqing Wang + 3 more2026-03-05💻 cs

Skullptor: High Fidelity 3D Head Reconstruction in Seconds with Multi-View Normal Prediction

Skullptor überbrückt die Lücke zwischen effizienten Einzelbild-Rekonstruktionen und aufwendigen Photogrammetrie-Verfahren, indem es ein Feed-Forward-Modell zur multi-view Normalen-Vorhersage mit einer inversen Rendering-Optimierung kombiniert, um in Sekunden hochpräzise 3D-Kopfgeometrien mit minimalem Kameraaufwand zu erzeugen.

Noé Artru, Rukhshanda Hussain, Emeline Got + 3 more2026-03-05💻 cs

Momentum Memory for Knowledge Distillation in Computational Pathology

Die Arbeit stellt Momentum Memory Knowledge Distillation (MoMKD) vor, ein neuartiges Framework zur Wissensdistillation, das durch eine momentum-basierte Speichereinheit und die Entkopplung der Gradienten die Stabilität und Generalisierbarkeit von rein histologischen Krebsdiagnosemodellen verbessert, indem es genomische Supervision effektiv nutzt, ohne auf gepaarte Trainingsdaten angewiesen zu sein.

Yongxin Guo, Hao Lu, Onur C. Koyun + 3 more2026-03-05💻 cs

Automatic Map Density Selection for Locally-Performant Visual Place Recognition

Diese Arbeit stellt einen dynamischen Ansatz zur Visual Place Recognition vor, der automatisch die optimale Karten-Dichte basierend auf benutzerdefinierten Anforderungen an die lokale Trefferquote und die Erreichungsrate bestimmt, um eine zuverlässige Leistung in spezifischen Umgebungsabschnitten zu gewährleisten, ohne unnötige Überdichte zu erzeugen.

Somayeh Hussaini, Tobias Fischer, Michael Milford2026-03-05💻 cs

Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models

Die Arbeit stellt Spatial Credit Redistribution (SCR) vor, eine gewichtsfreie Inferenzmethode, die durch die Umverteilung von Aktivierungen auf benachbarte Bildpatches die räumliche Kreditkonzentration in Vision-Language-Modellen korrigiert und so Halluzinationen signifikant reduziert, ohne die Generierungsqualität oder Latenz beeinträchtigen.

Niamul Hassan Samin, Md Arifur Rahman, Abdullah Ibne Hanif Arean + 2 more2026-03-05🤖 cs.AI

EvalMVX: A Unified Benchmarking for Neural 3D Reconstruction under Diverse Multiview Setups

Die Arbeit stellt EvalMVX vor, ein umfassendes Echtwelt-Datenset mit 25 Objekten und 8.500 Bildern unter variierenden Beleuchtungs- und Aufnahmewinkeln, das erstmals eine quantitative Benchmarking von MVS-, MVPS- und MVSfP-Methoden für die neurale 3D-Rekonstruktion ermöglicht und dabei 13 aktuelle Verfahren evaluiert.

Zaiyan Yang, Jieji Ren, Xiangyi Wang + 5 more2026-03-05💻 cs

Improved MambdaBDA Framework for Robust Building Damage Assessment Across Disaster Domains

Diese Arbeit stellt einen verbesserten MambdaBDA-Rahmen für die robuste Gebäudeerschütterungsbewertung vor, der durch die Integration von Focal Loss, Attention Gates und einem Ausrichtungsmodule die Generalisierungsfähigkeit über verschiedene Katastrophendomänen hinweg signifikant steigert.

Alp Eren Gençoğlu, Hazım Kemal Ekenel2026-03-05💻 cs

A Unified Revisit of Temperature in Classification-Based Knowledge Distillation

Diese Arbeit bietet eine einheitliche Untersuchung der Wechselwirkungen zwischen dem Temperaturparameter und anderen Trainingselementen bei der wissensbasierten Destillation, um praktische Leitlinien für die optimale Temperaturwahl zu entwickeln.

Logan Frank, Jim Davis2026-03-05🤖 cs.LG

ITO: Images and Texts as One via Synergizing Multiple Alignment and Training-Time Fusion

Die Arbeit stellt ITO vor, ein Framework, das durch multimodale Mehrfachausrichtung und eine während des Trainings eingesetzte, aber bei der Inferenz verworfene Fusionsmodul die modalspezifische Trennung in Bild-Text-Vorabtrainingsmodellen überwindet und so die Leistung bei verschiedenen Aufgaben signifikant verbessert.

HanZpeng Liu, Yaqian Li, Zidan Wang + 6 more2026-03-05🤖 cs.AI

← Zurück Weiter →