Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer

Die Studie zeigt, dass die asymmetrische Wissensdistillation von einem großen Vision Transformer auf stark kapazitätsbeschränkte CNNs zu einem drastischen Zusammenbruch der effektiven Dimensionalität führt, der die inhärente Rauschrobustheit des Lehrmodells fundamental zerstört und durch eine Informationstheorie-Trade-off zwischen Kapazität und Stabilität erklärt wird.

Kabir Thayani2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

Die Arbeit stellt SIQA vor, ein neues Framework zur Bewertung wissenschaftlicher Bildqualität, das neben der visuellen Wahrnehmung auch die wissenschaftliche Korrektheit und Vollständigkeit prüft und dabei zeigt, dass Multimodal-Modelle zwar Expertenbewertungen gut nachahmen können, aber oft das zugrundeliegende wissenschaftliche Verständnis fehlt.

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

On the Generalization Capacities of MLLMs for Spatial Intelligence

Die Arbeit zeigt, dass herkömmliche multimodale Sprachmodelle für räumliche Intelligenz ohne Berücksichtigung von Kameraparametern nicht verallgemeinerbar sind, und stellt ein neues, kamera-bewusstes Framework vor, das durch die Integration von Kameraintrinsiken, datenaugmentierte Trainingsstrategien und das Destillieren geometrischer Priors eine robuste Generalisierung über verschiedene Kameras hinweg ermöglicht.

Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu2026-03-10🤖 cs.LG

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

Die vorgestellte Arbeit führt das neue Paradigma der universellen Wasserzeichen-Präsenzerkennung (UWPD) ein, das mithilfe des neu erstellten UniFreq-100K-Datensatzes und des vorgeschlagenen Frequency Shield Networks (FSNet) eine algorithmenunabhängige Erkennung unsichtbarer Wasserzeichen ohne vorheriges Wissen über die Einbettungsmethode ermöglicht.

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

Das Paper stellt HERO vor, ein neues Framework für die offene Vokabular-basierte zeitliche Verankerung von Sätzen in Videos, das durch hierarchische Embeddings und parallele multimodale Verfeinerung die Generalisierungsfähigkeit bestehender Methoden verbessert und durch die Einführung der Benchmarks Charades-OV und ActivityNet-OV ein neues Forschungsgebiet erschließt.

Tingting Han, Xinsong Tao, Yufei Yin, Min Tan, Sicheng Zhao, Zhou Yu2026-03-10💻 cs

Heterogeneous Decentralized Diffusion Models

Die Arbeit stellt ein effizientes Framework für heterogene dezentrale Diffusionsmodelle vor, das durch die Kombination unterschiedlicher Trainingsziele (DDPM und Flow Matching), eine innovative Umrechnung zur Inferenz und eine optimierte Architektur den Rechenaufwand im Vergleich zu vorherigen Ansätzen um das 16-fache senkt und gleichzeitig die Bildqualität sowie die Vielfalt verbessert.

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

Die Studie zeigt, dass die Fähigkeit von Vision-Language-Modellen, ihre Zwischenschritte konsistent mit visuellen Eingaben zu verankern (Step Grounding Rate), ein stärkerer Prädiktor für ihre Generalisierungsfähigkeit bei Out-of-Distribution-Szenarien ist als die reine Endantwortgenauigkeit.

Md Ashikur Rahman, Md Arifur Rahman, Niamul Hassan Samin, Abdullah Ibne Hanif Arean, Juena Ahmed Noshin2026-03-10💻 cs

Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction

Diese Arbeit stellt einen neuen aktiven View-Selection-Ansatz namens Perturbed Gaussian Ensemble vor, der durch die stochastische Skalierung von Gaussschen Primitive eine Unsicherheitsmodellierung ermöglicht, um bei der tomographischen Rekonstruktion aus wenigen Aufnahmen die geometrischen Artefakte zu minimieren und die Bildqualität zu verbessern.

Yulun Wu, Ruyi Zha, Wei Cao, Yingying Li, Yuanhao Cai, Yaoyao Liu2026-03-10💻 cs

An Extended Topological Model For High-Contrast Optical Flow

Diese Arbeit identifiziert ein erweitertes topologisches Modell für hochkontrastierende optische Fluss-Patches, das auf der Theorie von Kreisbündeln basiert und zeigt, dass die meisten hochkontrastierenden Patches nahe an Kreisen für binäre Stufenkanten liegen, was die Grenzen vorheriger Torus-Modelle erklärt und neue Einblicke in die Beziehung zwischen Topologie und Geometrie bei der visuellen Inferenz liefert.

Brad Turow, Jose A. Perea2026-03-10🔢 math

IGLU: The Integrated Gaussian Linear Unit Activation Function

Die Arbeit stellt IGLU vor, eine parametrische Aktivierungsfunktion, die als Skalenmischung von GELU-Toren unter einer Halbnormalverteilung abgeleitet wird und durch ihren schweren Cauchy-Schwanz verbesserte Gradientenstabilität sowie eine effiziente rational approximierbare Variante bietet, die auf verschiedenen Datensätzen konkurrenzfähige oder überlegene Ergebnisse gegenüber ReLU und GELU erzielt.

Mingi Kang, Zai Yang, Jeova Farias Sales Rocha Neto2026-03-10🤖 cs.LG