CARE: A Molecular-Guided Foundation Model with Adaptive Region Modeling for Whole Slide Image Analysis

Das Paper stellt CARE vor, einen molekülgesteuerten Fundament-Modell-Ansatz für die Pathologie, der durch adaptive Regionen und eine zweistufige Vortrainingsstrategie die Heterogenität von Gewebestrukturen besser erfasst und dabei mit nur einem Zehntel der üblichen Datenmenge überlegene Ergebnisse auf zahlreichen Aufgaben erzielt.

Di Zhang, Zhangpeng Gong, Xiaobo Pang + 14 more2026-03-06💻 cs

When LoRA Betrays: Backdooring Text-to-Image Models by Masquerading as Benign Adapters

Die Studie stellt MasqLoRA vor, einen ersten systematischen Angriffsrahmen, der es ermöglicht, Text-zu-Bild-Diffusionsmodelle durch das Einschleusen eines scheinbar harmlosen LoRA-Adapters mit einem versteckten Backdoor zu manipulieren, der bei einem spezifischen Triggerwort eine schädliche Ausgabe erzeugt, während das Modell im Normalfall unauffällig bleibt.

Liangwei Lyu, Jiaqi Xu, Jianwei Ding + 1 more2026-03-06💻 cs

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer

Die Arbeit stellt DiffusionHarmonizer vor, ein Online-Framework, das mithilfe eines einzelnen, zeitlich konditionierten Diffusions-Enhancers und einer speziellen Datenaufbereitung neuartige Ansichten aus neuralen Rekonstruktionen in fotorealistische und zeitlich konsistente Simulationen umwandelt, um Artefakte zu beheben und dynamische Objekte realistisch zu integrieren.

Yuxuan Zhang, Katarína Tóthová, Zian Wang + 7 more2026-03-06💻 cs

UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images

Das Paper stellt UFO-4D vor, ein einheitliches Feedforward-Framework, das aus nur zwei unpositionierten Bildern eine dichte 4D-Rekonstruktion mittels dynamischer 3D-Gaussian-Splats erzeugt und dabei durch die differenzierbare Rendering-Synthese mehrerer Signale aus einer gemeinsamen geometrischen Darstellung eine überlegene Schätzung von Geometrie, Bewegung und Kameraposition ermöglicht.

Junhwa Hur, Charles Herrmann, Songyou Peng + 4 more2026-03-06💻 cs

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

Die Arbeit stellt Dr. Seg vor, ein plug-and-play-Framework für visuelle Großsprachenmodelle, das durch einen Look-to-Confirm-Mechanismus und ein rangbasiertes Belohnungssystem die Annahme widerlegt, dass reine Sprachtrainingsparadigmen nahtlos auf visuelle Wahrnehmungsaufgaben übertragbar sind, und so die Leistung in komplexen Szenarien signifikant verbessert.

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

Die Arbeit stellt AlignVAR vor, ein neuartiges visuelles autoregressives Framework für die Bildsuperauflösung, das durch die Einführung von Spatial Consistency Autoregression und Hierarchical Consistency Constraint globale Konsistenz sicherstellt und dabei sowohl die strukturelle Kohärenz als auch die Inferenzgeschwindigkeit im Vergleich zu bestehenden Diffusionsmodellen erheblich verbessert.

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

Die Arbeit stellt Dr. Occ vor, ein Framework für die 3D-Besetzungsvorhersage aus Umgebungskameras, das durch eine tiefen- und regionsgeführte Architektur geometrische Ausrichtungsfehler und räumliche Klassenungleichgewichte überwindet und damit auf dem Occ3D-nuScenes-Benchmark signifikante Verbesserungen gegenüber bestehenden Methoden erzielt.

Xubo Zhu, Haoyang Zhang, Fei He + 4 more2026-03-06💻 cs

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Die Arbeit stellt Kiwi-Edit vor, ein neues State-of-the-Art-System für die videobasierte Bearbeitung, das durch eine skalierbare Datengenerierungspipeline, den daraus resultierenden großen Datensatz RefVIE und eine einheitliche Architektur mit lernbaren Abfragen die präzise Steuerung von Video-Edits mittels natürlicher Sprache und Referenzbildern erheblich verbessert.

Yiqi Lin, Guoqiang Liang, Ziyun Zeng + 3 more2026-03-06💻 cs