Beyond Caption-Based Queries for Video Moment Retrieval

Diese Arbeit untersucht die Leistungsverschlechterung bestehender Video-Moment-Retrieval-Methoden bei der Verwendung von Suchanfragen statt Bildunterschriften, identifiziert sprachliche und mehrfache-Moment-Lücken sowie einen Decoder-Query-Kollaps als Hauptursachen und schlägt architektonische Modifikationen vor, die die Generalisierungsfähigkeit signifikant verbessern.

David Pujol-Perich, Albert Clapés, Dima Damen + 2 more2026-03-04💻 cs

Retrieving Patient-Specific Radiomic Feature Sets for Transparent Knee MRI Assessment

Die vorgestellte Studie entwickelt einen transparenten, patientenspezifischen Ansatz zur Auswahl komplementärer Radiomik-Feature-Sets für Knie-MRTs, der durch eine zweistufige Retrieval-Strategie die diagnostische Genauigkeit von Top-k-Methoden übertrifft und mit Deep-Learning-Modellen konkurriert, während sie gleichzeitig klinisch nachvollziehbare Erklärungen liefert.

Yaxi Chen, Simin Ni, Jingjing Zhang + 7 more2026-03-04💻 cs

Cultural Counterfactuals: Evaluating Cultural Biases in Large Vision-Language Models with Counterfactual Examples

Die Arbeit stellt „Cultural Counterfactuals" vor, einen synthetischen Datensatz mit nahezu 60.000 bearbeiteten Bildern, der es ermöglicht, kulturelle Verzerrungen (z. B. in Bezug auf Religion, Nationalität oder sozioökonomischen Status) in Large Vision-Language Models präzise zu messen, indem dieselben Personen in verschiedenen kulturellen Kontexten dargestellt werden.

Phillip Howard, Xin Su, Kathleen C. Fraser2026-03-04💻 cs

Authenticated Contradictions from Desynchronized Provenance and Watermarking

Diese Arbeit identifiziert und adressiert die „Integrity Clash"-Schwachstelle, bei der ein digitales Bild gleichzeitig eine gültige C2PA-Manifest-Erklärung über menschliche Urheberschaft und einen AI-Wasserzeichen-Code trägt, indem sie einen Metadaten-Waschprozess demonstriert und ein neues, 100 % genaues Cross-Layer-Audit-Protokoll zur gemeinsamen Verifizierung beider Schichten vorschlägt.

Alexander Nemecek, Hengzhi He, Guang Cheng + 1 more2026-03-04⚡ eess

Large-Scale Dataset and Benchmark for Skin Tone Classification in the Wild

Die Arbeit stellt das groß angelegte, offene Datenset STW mit 42.313 Bildern und dem 10-stufigen MST-Schema vor, bewertet klassische und Deep-Learning-Ansätze zur Hauttönungsklassifizierung und führt mit dem feinabgestimmten ViT-Modell SkinToneNet einen neuen State-of-the-Art für faire Audits öffentlicher Datensätze ein.

Vitor Pereira Matias, Márcus Vinícius Lobo Costa, João Batista Neto + 1 more2026-03-04🤖 cs.LG

E2E-GNet: An End-to-End Skeleton-based Geometric Deep Neural Network for Human Motion Recognition

Die Arbeit stellt E2E-GNet vor, ein end-to-end geometrisches Deep-Learning-Netzwerk, das durch eine geometrische Transformationsschicht und eine verzerrungsbewusste Optimierungsschicht die menschliche Bewegungserkennung auf Skelettdaten in nicht-euklidischen Räumen verbessert und dabei auf fünf Datensätzen überlegene Ergebnisse bei geringerem Rechenaufwand erzielt.

Mubarak Olaoluwa, Hassen Drira2026-03-04💻 cs

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Die Arbeit stellt MUSE vor, eine Open-Source-Plattform zur multimodalen Sicherheitsevaluierung von großen Sprachmodellen, die durch den Einsatz von Multi-Turn-Angriffen mit Modality-Switching und einer differenzierten Erfolgsmetrik aufzeigt, dass bestehende Sicherheitsausrichtungen oft nicht auf Audio-, Bild- und Videoeingaben verallgemeinern.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess