SAMRI-2: A Memory-based Model for Cartilage and Meniscus Segmentation in 3D MRIs of the Knee Joint

Die Studie stellt SAMRI-2 vor, ein interaktives, speicherbasiertes Deep-Learning-Modell, das durch eine Hybrid-Shuffle-Strategie und eine geringe Anzahl an Benutzerinteraktionen die präzise Segmentierung von Knorpel und Meniskus in 3D-Knie-MRTs übertrifft und so die Effizienz und Genauigkeit bei der Diagnose von Kniearthrose verbessert.

Danielle L. Ferreira, Bruno A. A. Nunes, Xuzhe Zhang + 3 more2026-02-24⚡ eess

SphOR: A Representation Learning Perspective on Open-set Recognition for Identifying Unknown Classes in Deep Learning Models

Die Arbeit stellt SpHOR vor, eine Methode zur offenen Erkennung, die durch orthogonale Label-Embeddings, sphärische Constraints und integrierte Regularisierungstechniken das Merkmalsrepräsentationslernen gezielt optimiert, um unbekannte Klassen in Deep-Learning-Modellen präziser zu identifizieren und dabei den aktuellen Stand der Technik zu übertreffen.

Nadarasar Bahavan, Sachith Seneviratne, Saman Halgamuge2026-02-24💻 cs

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

Die Studie stellt mit dem Qualcomm Interactive Video Dataset (IVD) einen neuen Benchmark vor, um die Fähigkeit von Vision-Language-Modellen zu bewerten, in Echtzeit auf Kamera- und Audioeingaben zu reagieren, und zeigt, dass diese zwar derzeit weit hinter menschlichen Leistungen zurückbleiben, durch Feinabstimmung jedoch erheblich verbessert werden können.

Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya + 3 more2026-02-24💻 cs

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

Das Paper stellt JavisDiT vor, einen neuartigen Joint Audio-Video Diffusion Transformer, der mithilfe eines hierarchischen räumlich-zeitlichen Synchronisationsmechanismus (HiST-Sypo) hochwertige, synchronisierte Audio-Video-Inhalte aus Textprompts generiert und durch die Einführung des neuen Benchmarks JavisBench sowie einer robusten Metrik einen neuen Standard für diese Aufgabe setzt.

Kai Liu, Wei Li, Lai Chen + 8 more2026-02-24⚡ eess

Order Matters: On Parameter-Efficient Image-to-Video Probing for Recognizing Nearly Symmetric Actions

Die Arbeit stellt STEP vor, einen leichten, selbstaufmerksamen zeitlichen Probing-Ansatz, der durch die Modellierung der Frame-Reihenfolge die Erkennung nahezu symmetrischer Aktionen in der Mensch-Roboter-Interaktion verbessert und dabei sowohl herkömmliches Probing als auch aufwendigere Parameter-Effiziente Feinabstimmungsmethoden übertrifft.

Thinesh Thiyakesan Ponbagavathi, Alina Roitberg2026-02-24💻 cs

nnLandmark: A Self-Configuring Method for 3D Medical Landmark Detection

Das Paper stellt nnLandmark vor, ein selbstkonfigurierendes Framework für die 3D-Landmarkenerkennung in der Medizin, das durch die Wiederverwendung von nnU-Net-Komponenten und standardisierte Benchmarking-Tools einen neuen State-of-the-Art erreicht und die Entwicklung sowie den fairen Vergleich neuer Methoden ohne manuelle Hyperparameteranpassung ermöglicht.

Alexandra Ertl, Stefan Denner, Robin Peretzke + 8 more2026-02-24💻 cs

GRILL: Restoring Gradient Signal in Ill-Conditioned Layers for More Effective Adversarial Attacks on Autoencoders

Die Arbeit stellt GRILL vor, eine Technik, die durch die lokale Wiederherstellung von Gradientensignalen in schlecht konditionierten Schichten die Wirksamkeit von Adversarial Attacks auf Autoencoder und ähnliche Encoder-Decoder-Architekturen signifikant steigert, um deren Robustheit rigoroser zu bewerten.

Chethan Krishnamurthy Ramanaik, Arjun Roy, Tobias Callies + 1 more2026-02-24🤖 cs.AI