Can Vision-Language Models Answer Face to Face Questions in the Real-World?

Die Studie stellt mit dem Qualcomm Interactive Video Dataset (IVD) einen neuen Benchmark vor, um die Fähigkeit von Vision-Language-Modellen zu bewerten, in Echtzeit auf Kamera- und Audioeingaben zu reagieren, und zeigt, dass diese zwar derzeit weit hinter menschlichen Leistungen zurückbleiben, durch Feinabstimmung jedoch erheblich verbessert werden können.

Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya + 3 more2026-02-24💻 cs

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

Das Paper stellt JavisDiT vor, einen neuartigen Joint Audio-Video Diffusion Transformer, der mithilfe eines hierarchischen räumlich-zeitlichen Synchronisationsmechanismus (HiST-Sypo) hochwertige, synchronisierte Audio-Video-Inhalte aus Textprompts generiert und durch die Einführung des neuen Benchmarks JavisBench sowie einer robusten Metrik einen neuen Standard für diese Aufgabe setzt.

Kai Liu, Wei Li, Lai Chen + 8 more2026-02-24⚡ eess

Order Matters: On Parameter-Efficient Image-to-Video Probing for Recognizing Nearly Symmetric Actions

Die Arbeit stellt STEP vor, einen leichten, selbstaufmerksamen zeitlichen Probing-Ansatz, der durch die Modellierung der Frame-Reihenfolge die Erkennung nahezu symmetrischer Aktionen in der Mensch-Roboter-Interaktion verbessert und dabei sowohl herkömmliches Probing als auch aufwendigere Parameter-Effiziente Feinabstimmungsmethoden übertrifft.

Thinesh Thiyakesan Ponbagavathi, Alina Roitberg2026-02-24💻 cs

nnLandmark: A Self-Configuring Method for 3D Medical Landmark Detection

Das Paper stellt nnLandmark vor, ein selbstkonfigurierendes Framework für die 3D-Landmarkenerkennung in der Medizin, das durch die Wiederverwendung von nnU-Net-Komponenten und standardisierte Benchmarking-Tools einen neuen State-of-the-Art erreicht und die Entwicklung sowie den fairen Vergleich neuer Methoden ohne manuelle Hyperparameteranpassung ermöglicht.

Alexandra Ertl, Stefan Denner, Robin Peretzke + 8 more2026-02-24💻 cs

GRILL: Restoring Gradient Signal in Ill-Conditioned Layers for More Effective Adversarial Attacks on Autoencoders

Die Arbeit stellt GRILL vor, eine Technik, die durch die lokale Wiederherstellung von Gradientensignalen in schlecht konditionierten Schichten die Wirksamkeit von Adversarial Attacks auf Autoencoder und ähnliche Encoder-Decoder-Architekturen signifikant steigert, um deren Robustheit rigoroser zu bewerten.

Chethan Krishnamurthy Ramanaik, Arjun Roy, Tobias Callies + 1 more2026-02-24🤖 cs.AI

Feature Representation Transferring to Lightweight Models via Perception Coherence

Diese Arbeit stellt eine Methode zur Wissensübertragung auf leichte Modelle vor, die durch die mathematische Definition von „Perzeptionskohärenz" und einen darauf basierenden Verlustfunktion auf Rangordnungen der Dissimilarität im Merkmalsraum eine probabilistische Perspektive ermöglicht und damit bestehende Basismethoden in der Leistung übertrifft oder mit ihnen gleichzieht.

Hai-Vy Nguyen, Fabrice Gamboa, Sixin Zhang + 3 more2026-02-24📊 stat

U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding

Die Studie stellt U2-BENCH vor, den ersten umfassenden Benchmark zur Evaluierung von Large Vision-Language-Modellen in der Ultraschalldiagnostik, der 23 Modelle über 8 klinische Aufgaben hinweg testet und dabei zwar gute Klassifikationsfähigkeiten, aber weiterhin erhebliche Herausforderungen bei der räumlichen Reasoning und der Generierung klinischer Berichte aufzeigt.

Anjie Le, Henan Liu, Yue Wang + 18 more2026-02-24🤖 cs.LG

Fine-Grained Motion Compression and Selective Temporal Fusion for Neural B-Frame Video Coding

Die Autoren stellen einen neuartigen neuronalen B-Bild-Codec vor, der durch eine feingranulare Motion-Kompression mit interaktivem Dual-Branch-Autoencoder und eine selektive zeitliche Fusion mit Hyperprior-basierter Ausrichtung die Effizienz signifikant steigert und dabei sowohl den aktuellen State-of-the-Art-Codec DCVC-B als auch den H.266/VVC-Referenzstandard übertrifft.

Xihua Sheng, Peilin Chen, Meng Wang + 3 more2026-02-24⚡ eess

Perception Characteristics Distance: Measuring Stability and Robustness of Perception System in Dynamic Conditions under a Certain Decision Rule

Diese Arbeit stellt die neue Metrik „Perception Characteristics Distance" (PCD) vor, die die Unsicherheit von Wahrnehmungsalgorithmen berücksichtigt, und validiert sie mithilfe des neu erstellten SensorRainFall-Datensatzes unter verschiedenen Wetter- und Lichtbedingungen, um die Stabilität und Robustheit autonomer Fahrsysteme besser zu bewerten als herkömmliche Kennzahlen.

Boyu Jiang, Liang Shi, Zhengzhi Lin + 3 more2026-02-24📊 stat

Modulate and Reconstruct: Learning Hyperspectral Imaging from Misaligned Smartphone Views

Diese Arbeit stellt ein neues Framework namens Doomer vor, das mithilfe von drei Smartphone-Kameras mit spektralen Filtern und einem leichten Ausrichtungsmodul präzisere hyperspektrale Bilder aus mehreren ungenau ausgerichteten RGB-Aufnahmen rekonstruiert und dabei die Genauigkeit gegenüber herkömmlichen Einzelbild-Methoden um bis zu 30 % steigert.

Daniil Reutsky, Daniil Vladimirov, Yasin Mamedov + 4 more2026-02-24💻 cs

Exploring Partial Multi-Label Learning via Integrating Semantic Co-occurrence Knowledge

Die vorgestellte Arbeit stellt SCINet vor, ein neuartiges Framework für das partielle Multi-Label-Learning, das semantische Ko-occurrence-Muster durch die Integration eines bi-dominanten Prompters, einer Cross-Modality-Fusion und intrinsischer semantischer Augmentierung nutzt, um unvollständig annotierte Daten effektiver zu verarbeiten und den aktuellen Stand der Technik zu übertreffen.

Xin Wu, Fei Teng, Yue Feng + 4 more2026-02-24🤖 cs.AI

Winsor-CAM: Human-Tunable Visual Explanations from Deep Networks via Layer-Wise Winsorization

Der Artikel stellt Winsor-CAM vor, eine effiziente und anpassbare Methode zur Visualisierung von CNN-Entscheidungen, die durch die Aggregation von Grad-CAM-Karten aller Faltungsschichten und eine percentilbasierte Winsorisierung robustere und präzise Erklärungen liefert, die in medizinischen und sicherheitskritischen Anwendungen die Leistung bestehender Methoden übertreffen.

Casey Wall, Longwei Wang, Rodrigue Rizk + 1 more2026-02-24🤖 cs.AI