PRISM: Diversifying Dataset Distillation by Decoupling Architectural Priors

PRISM ist ein Framework für die Datensatz-Distillation, das durch die Entkopplung von Logit-Matching und Regularisierung unter Verwendung unterschiedlicher Lehrer-Architekturen die inhärenten Verzerrungen einzelner Modelle überwindet und so auf ImageNet-1K eine signifikant höhere Intra-Klassen-Diversität und bessere Generalisierung als bestehende Methoden erreicht.

Brian B. Moser, Shalini Sarode, Federico Raue + 6 more2026-02-24🤖 cs.AI

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

Das Paper stellt Mantis vor, ein vielseitiges Vision-Language-Action-Modell, das durch einen neuartigen Ansatz mit entkoppelter visueller Vorausschau (Disentangled Visual Foresight) die Trainingskosten senkt und gleichzeitig die Sprachverständnis- sowie Reasoning-Fähigkeiten verbessert, was zu überlegenen Leistungen bei Robotermanipulation und Instruktionsbefolgung führt.

Yi Yang, Xueqi Li, Yiyang Chen + 7 more2026-02-24🤖 cs.AI

GuideFlow: Constraint-Guided Flow Matching for Planning in End-to-End Autonomous Driving

Die Arbeit stellt GuideFlow vor, ein neuartiges Planungsframework für autonomes Fahren, das durch die direkte Einbindung von Sicherheits- und physikalischen Randbedingungen in den Flow-Matching-Prozess sowie die Parametrisierung von Fahraggressivität Multimodalitätsprobleme löst und gleichzeitig state-of-the-art Ergebnisse auf führenden Benchmarks erzielt.

Lin Liu, Caiyan Jia, Guanyi Yu + 6 more2026-02-24💻 cs

CheXmask-U: Quantifying uncertainty in landmark-based anatomical segmentation for X-ray images

Die Arbeit stellt CheXmask-U vor, ein Framework zur Schätzung von Unsicherheiten bei der landmarkenbasierten anatomischen Segmentierung von Röntgenbildern mittels hybrider neuronaler Netzwerke, das ein großes Datenset mit Unsicherheitsschätzungen bereitstellt, um die Robustheit und Sicherheit solcher Modelle zu verbessern.

Matias Cosarinsky, Nicolas Gaggion, Rodrigo Echeveste + 1 more2026-02-24💻 cs

DL3^3M: A Vision-to-Language Framework for Expert-Level Medical Reasoning through Deep Learning and Large Language Models

Die Studie stellt DL3^3M vor, ein Framework, das die hochpräzise Bildklassifizierung durch ein hybrides MobileCoAtNet-Modell mit der Textgenerierung von Large Language Models verbindet, um klinische Erklärungen zu erstellen, und zeigt dabei, dass trotz verbesserter Erklärungsqualität die aktuellen LLMs aufgrund fehlender Stabilität noch nicht für hochriskante medizinische Entscheidungen geeignet sind.

Md. Najib Hasan, Imran Ahmad, Sourav Basak Shuvo + 4 more2026-02-24🤖 cs.AI

Object-WIPER : Training-Free Object and Associated Effect Removal in Videos

Die Arbeit stellt Object-WIPER vor, ein trainingsfreies Framework, das dynamische Objekte und deren visuelle Effekte aus Videos entfernt und durch semantisch konsistente, zeitlich kohärente Inhalte ersetzt, indem es einen vortrainierten Text-zu-Video-Diffusions-Transformer nutzt und durch ein neues Evaluationsmaß sowie einen zugehörigen Benchmark validiert wird.

Saksham Singh Kushwaha, Sayan Nag, Yapeng Tian + 1 more2026-02-24💻 cs

Emotion-LLaMAv2 and MMEVerse: A New Framework and Benchmark for Multimodal Emotion Understanding

Die Autoren stellen Emotion-LLaMAv2 und den MMEVerse-Benchmark vor, ein neues Framework mit einem End-to-End-Multiview-Encoder, einem Conv-Attention-Fusionsmodul und einem Curriculum-Instruction-Tuning, das auf einer neu annotierten Datensammlung von 130.000 Clips basiert, um die multimodale Emotionserkennung und -analyse zu verbessern.

Xiaojiang Peng, Jingyi Chen, Zebang Cheng + 11 more2026-02-24🤖 cs.AI

FineVAU: A Novel Human-Aligned Benchmark for Fine-Grained Video Anomaly Understanding

Die Arbeit stellt FineVAU vor, ein neues Benchmark für das feingranulare Verständnis von Videoanomalien, das den Mangel an menschenähnlichen Evaluierungsmetriken durch die Einführung des FVScore-Maßstabs und des FineW3-Datensatzes adressiert und dabei kritische Grenzen aktueller Large Vision-Language-Modelle bei der räumlichen und zeitlichen Erfassung von Anomalien aufdeckt.

João Pereira, Vasco Lopes, João Neves + 1 more2026-02-24💻 cs

RepSFNet : A Single Fusion Network with Structural Reparameterization for Crowd Counting

Die Arbeit stellt RepSFNet vor, eine leichte, auf struktureller Reparametrisierung basierende Single-Fusion-Architektur für das Crowd Counting, die durch den Einsatz eines RepLK-ViT-Rückgrats und einer effizienten Kontextmodellierung eine hohe Genauigkeit bei gleichzeitig reduzierter Latenz für Echtzeitanwendungen auf Edge-Geräten erreicht.

Mas Nurul Achmadiah, Chi-Chia Sun, Wen-Kai Kuo + 1 more2026-02-24💻 cs