Soft Equivariance Regularization for Invariant Self-Supervised Learning

Die Arbeit stellt „Soft Equivariance Regularization" (SER) vor, einen effizienten Regularisierer, der durch die Entkopplung von Invarianz und Äquivarianz auf verschiedenen Netzwerkschichten die Repräsentationsqualität für Selbstüberwachtes Lernen verbessert, ohne dabei zusätzliche Vorhersageköpfe zu benötigen oder die Trainingskosten signifikant zu erhöhen.

Joohyung Lee, Changhun Kim, Hyunsu Kim, Kwanhyung Lee, Juho Lee2026-03-10🤖 cs.LG

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

Die Studie stellt HARP vor, ein tiefes Lern-Framework zur Harmonisierung von in-vivo-Diffusions-MRT-Daten verschiedener Standorte, das ausschließlich auf einem leicht transportablen Phantom trainiert wird und somit den Bedarf an aufwendigen, multi-sitigen menschlichen Kohorten eliminiert.

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Die Studie stellt eine Methode vor, bei der durch die Einführung spezieller Blick-Tokens, die menschliche Augenbewegungen nachahmen, Vision-Language-Modelle für medizinische Bildanalyse optimiert werden, was zu verbesserten Ergebnissen sowohl im Trainingsbereich als auch bei der Generalisierung auf neue Datensätze führt.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer

Die Studie zeigt, dass die asymmetrische Wissensdistillation von einem großen Vision Transformer auf stark kapazitätsbeschränkte CNNs zu einem drastischen Zusammenbruch der effektiven Dimensionalität führt, der die inhärente Rauschrobustheit des Lehrmodells fundamental zerstört und durch eine Informationstheorie-Trade-off zwischen Kapazität und Stabilität erklärt wird.

Kabir Thayani2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

Die Arbeit stellt SIQA vor, ein neues Framework zur Bewertung wissenschaftlicher Bildqualität, das neben der visuellen Wahrnehmung auch die wissenschaftliche Korrektheit und Vollständigkeit prüft und dabei zeigt, dass Multimodal-Modelle zwar Expertenbewertungen gut nachahmen können, aber oft das zugrundeliegende wissenschaftliche Verständnis fehlt.

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

On the Generalization Capacities of MLLMs for Spatial Intelligence

Die Arbeit zeigt, dass herkömmliche multimodale Sprachmodelle für räumliche Intelligenz ohne Berücksichtigung von Kameraparametern nicht verallgemeinerbar sind, und stellt ein neues, kamera-bewusstes Framework vor, das durch die Integration von Kameraintrinsiken, datenaugmentierte Trainingsstrategien und das Destillieren geometrischer Priors eine robuste Generalisierung über verschiedene Kameras hinweg ermöglicht.

Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu2026-03-10🤖 cs.LG

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

Die vorgestellte Arbeit führt das neue Paradigma der universellen Wasserzeichen-Präsenzerkennung (UWPD) ein, das mithilfe des neu erstellten UniFreq-100K-Datensatzes und des vorgeschlagenen Frequency Shield Networks (FSNet) eine algorithmenunabhängige Erkennung unsichtbarer Wasserzeichen ohne vorheriges Wissen über die Einbettungsmethode ermöglicht.

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

Das Paper stellt HERO vor, ein neues Framework für die offene Vokabular-basierte zeitliche Verankerung von Sätzen in Videos, das durch hierarchische Embeddings und parallele multimodale Verfeinerung die Generalisierungsfähigkeit bestehender Methoden verbessert und durch die Einführung der Benchmarks Charades-OV und ActivityNet-OV ein neues Forschungsgebiet erschließt.

Tingting Han, Xinsong Tao, Yufei Yin, Min Tan, Sicheng Zhao, Zhou Yu2026-03-10💻 cs

Heterogeneous Decentralized Diffusion Models

Die Arbeit stellt ein effizientes Framework für heterogene dezentrale Diffusionsmodelle vor, das durch die Kombination unterschiedlicher Trainingsziele (DDPM und Flow Matching), eine innovative Umrechnung zur Inferenz und eine optimierte Architektur den Rechenaufwand im Vergleich zu vorherigen Ansätzen um das 16-fache senkt und gleichzeitig die Bildqualität sowie die Vielfalt verbessert.

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

Die Studie zeigt, dass die Fähigkeit von Vision-Language-Modellen, ihre Zwischenschritte konsistent mit visuellen Eingaben zu verankern (Step Grounding Rate), ein stärkerer Prädiktor für ihre Generalisierungsfähigkeit bei Out-of-Distribution-Szenarien ist als die reine Endantwortgenauigkeit.

Md Ashikur Rahman, Md Arifur Rahman, Niamul Hassan Samin, Abdullah Ibne Hanif Arean, Juena Ahmed Noshin2026-03-10💻 cs

Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction

Diese Arbeit stellt einen neuen aktiven View-Selection-Ansatz namens Perturbed Gaussian Ensemble vor, der durch die stochastische Skalierung von Gaussschen Primitive eine Unsicherheitsmodellierung ermöglicht, um bei der tomographischen Rekonstruktion aus wenigen Aufnahmen die geometrischen Artefakte zu minimieren und die Bildqualität zu verbessern.

Yulun Wu, Ruyi Zha, Wei Cao, Yingying Li, Yuanhao Cai, Yaoyao Liu2026-03-10💻 cs