Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Die Studie zeigt, dass aktuelle multimodale Basis-Modelle bei der Identifizierung kontextuell wichtiger Momente in Fußballvideos kaum besser als Zufall sind, da sie oft auf eine einzelne dominante Modalität angewiesen sind und keine effektive Synthese aus mehreren Quellen leisten, was den Bedarf an modularen Architekturen und ergänzenden Trainingsverfahren unterstreicht.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

CARE: A Molecular-Guided Foundation Model with Adaptive Region Modeling for Whole Slide Image Analysis

Das Paper stellt CARE vor, einen molekülgesteuerten Fundament-Modell-Ansatz für die Pathologie, der durch adaptive Regionen und eine zweistufige Vortrainingsstrategie die Heterogenität von Gewebestrukturen besser erfasst und dabei mit nur einem Zehntel der üblichen Datenmenge überlegene Ergebnisse auf zahlreichen Aufgaben erzielt.

Di Zhang, Zhangpeng Gong, Xiaobo Pang + 14 more2026-03-06💻 cs

When LoRA Betrays: Backdooring Text-to-Image Models by Masquerading as Benign Adapters

Die Studie stellt MasqLoRA vor, einen ersten systematischen Angriffsrahmen, der es ermöglicht, Text-zu-Bild-Diffusionsmodelle durch das Einschleusen eines scheinbar harmlosen LoRA-Adapters mit einem versteckten Backdoor zu manipulieren, der bei einem spezifischen Triggerwort eine schädliche Ausgabe erzeugt, während das Modell im Normalfall unauffällig bleibt.

Liangwei Lyu, Jiaqi Xu, Jianwei Ding + 1 more2026-03-06💻 cs

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer

Die Arbeit stellt DiffusionHarmonizer vor, ein Online-Framework, das mithilfe eines einzelnen, zeitlich konditionierten Diffusions-Enhancers und einer speziellen Datenaufbereitung neuartige Ansichten aus neuralen Rekonstruktionen in fotorealistische und zeitlich konsistente Simulationen umwandelt, um Artefakte zu beheben und dynamische Objekte realistisch zu integrieren.

Yuxuan Zhang, Katarína Tóthová, Zian Wang + 7 more2026-03-06💻 cs

UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images

Das Paper stellt UFO-4D vor, ein einheitliches Feedforward-Framework, das aus nur zwei unpositionierten Bildern eine dichte 4D-Rekonstruktion mittels dynamischer 3D-Gaussian-Splats erzeugt und dabei durch die differenzierbare Rendering-Synthese mehrerer Signale aus einer gemeinsamen geometrischen Darstellung eine überlegene Schätzung von Geometrie, Bewegung und Kameraposition ermöglicht.

Junhwa Hur, Charles Herrmann, Songyou Peng + 4 more2026-03-06💻 cs

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

Die Arbeit stellt Dr. Seg vor, ein plug-and-play-Framework für visuelle Großsprachenmodelle, das durch einen Look-to-Confirm-Mechanismus und ein rangbasiertes Belohnungssystem die Annahme widerlegt, dass reine Sprachtrainingsparadigmen nahtlos auf visuelle Wahrnehmungsaufgaben übertragbar sind, und so die Leistung in komplexen Szenarien signifikant verbessert.

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs