VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

Die Arbeit stellt VLMQ vor, einen post-training-Quantisierungsrahmen für Vision-Sprach-Modelle, der durch die Identifizierung und Berücksichtigung von visueller Überrepräsentation sowie einer Modality-Gap und die selektive Priorisierung salienter Token mittels eines gradientenbasierten Wichtigkeitsfaktors die Quantisierungsleistung insbesondere bei niedrigen Bitbreiten signifikant verbessert.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

SGDFuse: SAM-Guided Diffusion Model for High-Fidelity Infrared and Visible Image Fusion

Die Arbeit stellt SGDFuse vor, ein bedingtes Diffusionsmodell, das mithilfe von semantischen Masken des Segment-Anything-Modells (SAM) als explizite Priors eine hochqualitative und semantisch bewusste Fusion von Infrarot- und sichtbaren Bildern ermöglicht, um Artefakte zu reduzieren und die Leistung in nachgelagerten visuellen Aufgaben zu verbessern.

Xiaoyang Zhang, jinjiang Li, Guodong Fan, Yakun Ju, Linwei Fan, Jun Liu, Alex C. Kot2026-03-09🤖 cs.AI

Multivariate Fields of Experts for Convergent Image Reconstruction

Die Arbeit stellt ein neues Framework namens „multivariate Fields of Experts" vor, das durch die Verwendung von Multivariaten-Potenzialfunktionen auf Basis von Moreau-Umhüllungen der \ell_\infty-Norm bei inversen Bildproblemen wie Entrauschen und Rekonstruktion eine höhere Effizienz und Interpretierbarkeit als univariate Modelle bietet und dabei die Leistung tiefer neuronaler Netze bei deutlich geringerem Ressourcenbedarf erreicht.

Stanislas Ducotterd, Michael Unser2026-03-09🤖 cs.LG

SSL-SLR: Self-Supervised Representation Learning for Sign Language Recognition

Der vorgestellte SSL-SLR-Ansatz verbessert die Gebärdenzeichenerkennung durch ein neuartiges selbstüberwachtes Lernframework mit freien Negativpaaren und einer speziellen Daten-Augmentierungstechnik, das die Herausforderungen der ungleichen Relevanz von Videobereichen und der Ähnlichkeit zwischen verschiedenen Gebärden adressiert.

Ariel Basso Madjoukeng, Jérôme Fink, Pierre Poitier, Edith Belise Kenmogne, Benoit Frenay2026-03-09💻 cs

Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

Dieses Paper stellt Kernel VICReg vor, ein neuartiges selbstüberwachtes Lernframework, das das VICReg-Ziel in einen reproduzierenden Kernel-Hilbert-Raum überführt, um durch die Kernelisierung von Varianz-, Invarianz- und Kovarianztermen nichtlineare Abhängigkeiten besser zu erfassen und so die Leistung bei Datensätzen mit nichtlinearer Struktur oder begrenzten Stichproben im Vergleich zu euklidischen Methoden zu verbessern.

M. Hadi Sepanj, Benyamin Ghojogh, Saed Moradi, Paul Fieguth2026-03-09🤖 cs.LG

C^2Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning

Die Arbeit stellt C²Prompt vor, eine neue Methode für das federierte kontinuierliche Lernen, die durch lokale Klassenverteilungs-Kompensation und eine klassenbewusste Prompt-Aggregation die Klassenwissen-Kohärenz zwischen Clients verbessert, um sowohl zeitliches als auch räumliches Vergessen zu reduzieren und damit den aktuellen Stand der Technik zu übertreffen.

Kunlun Xu, Yibo Feng, Jiangmeng Li, Yongsheng Qi, Jiahuan Zhou2026-03-09🤖 cs.LG

Decision-Driven Semantic Object Exploration for Legged Robots via Confidence-Calibrated Perception and Topological Subgoal Selection

Diese Arbeit stellt einen visuellen Ansatz für die semantische Objekterkundung mit Laufrobotern vor, der durch vertrauenskalibrierte Wahrnehmung, ein wachsendes topologisches Gedächtnis und eine nutzungsorientierte Subziel-Auswahl robuste Entscheidungen in offenen Umgebungen ermöglicht, ohne auf dichte geometrische Rekonstruktionen angewiesen zu sein.

Guoyang Zhao, Yudong Li, Weiqing Qi, Kai Zhang, Bonan Liu, Kai Chen, Haoang Li, Jun Ma2026-03-09💻 cs

DeCLIP: Decoupled Prompting for CLIP-based Multi-Label Class-Incremental Learning

Der Artikel stellt DeCLIP vor, ein replay-freies und parameter-effizientes Framework, das durch entkoppeltes, klassenspezifisches Prompting und adaptive Ähnlichkeitstemperierung das Katastrophenvergessen und die hohe False-Positive-Rate bei CLIP-basiertem Multi-Label-Klassen-incrementellen Lernen effektiv adressiert.

Kaile Du, Zihan Ye, Junzhou Xie, Yixi Shen, Yuyang Li, Fuyuan Hu, Ling Shao, Guangcan Liu, Joost van de Weijer, Fan Lyu2026-03-09💻 cs

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

Die Arbeit stellt LikePhys vor, eine trainingsfreie Methode zur Bewertung des intuitiven Physikverständnisses in Video-Diffusionsmodellen durch Likelihood-Vergleiche, die zeigt, dass diese Modelle trotz aktueller Schwierigkeiten mit komplexen Dynamiken mit zunehmender Kapazität und optimierten Inferenzeinstellungen ein verbessertes Verständnis physikalischer Gesetze aufweisen.

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

Das Papier stellt 3DThinker vor, ein Framework, das es Vision-Language-Modellen ermöglicht, durch zweistufiges Training ohne explizite 3D-Vorwissen oder -Daten räumliches 3D-Imaginieren zu erlernen und so die räumliche Schlussfolgerung aus begrenzten Ansichten zu verbessern.

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Xiang An, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang2026-03-09🤖 cs.AI

The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

Diese Arbeit stellt mit dem Cultural Reference Transformation (CRT)-Metrik einen Evaluierungsrahmen vor, der die Unterscheidung zwischen der Erkennung kultureller Referenzen und ihrer visuellen Realisierung in Diffusionsmodellen ermöglicht, um so die Komplexität von Multimodalität und kulturellem Gedächtnis jenseits einfacher Reproduktion zu erfassen.

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-03-09🤖 cs.AI