DeCLIP: Decoupled Prompting for CLIP-based Multi-Label Class-Incremental Learning

Der Artikel stellt DeCLIP vor, ein replay-freies und parameter-effizientes Framework, das durch entkoppeltes, klassenspezifisches Prompting und adaptive Ähnlichkeitstemperierung das Katastrophenvergessen und die hohe False-Positive-Rate bei CLIP-basiertem Multi-Label-Klassen-incrementellen Lernen effektiv adressiert.

Kaile Du, Zihan Ye, Junzhou Xie, Yixi Shen, Yuyang Li, Fuyuan Hu, Ling Shao, Guangcan Liu, Joost van de Weijer, Fan Lyu2026-03-09💻 cs

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

Die Arbeit stellt LikePhys vor, eine trainingsfreie Methode zur Bewertung des intuitiven Physikverständnisses in Video-Diffusionsmodellen durch Likelihood-Vergleiche, die zeigt, dass diese Modelle trotz aktueller Schwierigkeiten mit komplexen Dynamiken mit zunehmender Kapazität und optimierten Inferenzeinstellungen ein verbessertes Verständnis physikalischer Gesetze aufweisen.

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

Das Papier stellt 3DThinker vor, ein Framework, das es Vision-Language-Modellen ermöglicht, durch zweistufiges Training ohne explizite 3D-Vorwissen oder -Daten räumliches 3D-Imaginieren zu erlernen und so die räumliche Schlussfolgerung aus begrenzten Ansichten zu verbessern.

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Xiang An, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang2026-03-09🤖 cs.AI

The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

Diese Arbeit stellt mit dem Cultural Reference Transformation (CRT)-Metrik einen Evaluierungsrahmen vor, der die Unterscheidung zwischen der Erkennung kultureller Referenzen und ihrer visuellen Realisierung in Diffusionsmodellen ermöglicht, um so die Komplexität von Multimodalität und kulturellem Gedächtnis jenseits einfacher Reproduktion zu erfassen.

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-03-09🤖 cs.AI

SPARK: Jailbreaking T2V Models by Synergistically Prompting Auditory and Recontextualized Knowledge

Die Studie stellt SPARK vor, einen Jailbreak-Angriffsrahmen, der Text-zu-Video-Modelle durch die synergistische Kombination neutraler Szenenanker, latenter auditiver Trigger und stilistischer Modulatoren in benignen Prompts manipuliert, um sicherheitsrelevante Richtlinien zu umgehen und semantisch unsichere Videos zu generieren.

Zonghao Ying, Moyang Chen, Nizhang Li, Zhiqiang Wang, Wenxin Zhang, Quanchen Zou, Zonglei Jing, Aishan Liu, Xianglong Liu2026-03-09💻 cs

MRIQT: Physics-Aware Diffusion Model for Image Quality Transfer in Neonatal Ultra-Low-Field MRI

Die Studie stellt MRIQT vor, ein physikbewusstes 3D-Diffusionsmodell, das die Bildqualität von tragbaren Ultra-Niederfeld-MRTs für Neugeborene durch realistische K-Raum-Degradation und SNR-gewichtete Verlustfunktionen signifikant verbessert und dabei die diagnostische Zuverlässigkeit auf das Niveau von Hochfeldgeräten anhebt.

Malek Al Abed, Sebiha Demir, Anne Groteklaes, Elodie Germani, Shahrooz Faghihroohi, Hemmen Sabir, Shadi Albarqouni2026-03-09💻 cs

FunnyNodules: A Customizable Medical Dataset Tailored for Evaluating Explainable AI

Das Paper stellt FunnyNodules vor, einen vollständig parametrisierbaren synthetischen Datensatz mit abstrakten, lungenknotenähnlichen Formen, der durch seine vollständigen Ground-Truth-Informationen über diagnostische Merkmale und deren Zusammenhänge eine systematische Evaluierung und Analyse von erklärbarer KI (xAI) im medizinischen Bereich ermöglicht.

Luisa Gallée, Yiheng Xiong, Meinrad Beer, Michael Götz2026-03-09💻 cs

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

Die Arbeit stellt FireScope vor, ein auf Vision-Language-Modellen basierendes Framework mit Chain-of-Thought-Orakel, das durch die Integration von Sentinel-2-Bildern, Klimadaten und Expertenwissen sowie durch das Lernen aus Verstärkungslernen und visueller Überwachung präzise und interpretierbare Waldbrandrisikokarten erstellt, die eine robuste Generalisierung über Kontinente hinweg ermöglichen.

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG

Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal

Die Autoren stellen VeilGen und DeVeiler vor, ein System, das mittels eines generativen Modells und latenter Transmission- sowie Blendkarten realistische Linsenblendung simuliert und darauf aufbauend eine physikalisch fundierte Restaurierung für vereinfachte optische Systeme ermöglicht.

Xiaolong Qian, Qi Jiang, Lei Sun, Zongxi Yu, Kailun Yang, Peixuan Wu, Jiacheng Zhou, Yao Gao, Yaoguang Ma, Ming-Hsuan Yang, Kaiwei Wang2026-03-09🔬 physics.optics

SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis

Die Arbeit stellt SyncMV4D vor, ein bahnbrechendes Modell, das erstmals synchronisierte Multi-View-Videos und 4D-Bewegungen für Hand-Objekt-Interaktionen durch die gemeinsame Generierung visueller und dynamischer Daten in einem geschlossenen Regelkreis erzeugt, um so Realismus und geometrische Konsistenz zu verbessern.

Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu2026-03-09💻 cs