AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

Die Arbeit „AgilePruner" führt eine empirische Studie durch, die die Stärken und Schwächen von auf Aufmerksamkeit und Diversität basierenden Methoden zur visuellen Token-Pruning in großen visuell-sprachlichen Modellen analysiert und darauf aufbauend einen adaptiven Pruning-Mechanismus vorschlägt, der durch bildspezifische Anpassungen sowohl die Leistung als auch die Halluzinationsrate verbessert.

Changwoo Baek, Jouwon Song, Sohyeon Kim + 1 more2026-03-03🤖 cs.LG

The MAMA-MIA Challenge: Advancing Generalizability and Fairness in Breast MRI Tumor Segmentation and Treatment Response Prediction

Die MAMA-MIA-Challenge adressiert die mangelnde Generalisierbarkeit und Fairness bestehender KI-Modelle für die Brust-MRT durch einen großen, multizentrischen Benchmark, der die Segmentierung von Tumoren und die Vorhersage des Therapieansprechens über Kontinente hinweg unter Einbeziehung von Untergruppen-Gerechtigkeitsmetriken evaluiert.

Lidia Garrucho, Smriti Joshi, Kaisar Kushibar + 43 more2026-03-03🤖 cs.AI

Certifiable Estimation with Factor Graphs

Diese Arbeit stellt einen einheitlichen Rahmen vor, der die Vorteile modularer Faktorgraphen mit zertifizierbaren, global optimalen Schätzverfahren verbindet, indem sie zeigt, dass die Struktur von Faktorgraphen unter Shor-Relaxation und Burer-Monteiro-Faktorisierung erhalten bleibt und so die Implementierung zertifizierbarer Schätzung mit etablierten Robotik-Bibliotheken ermöglicht.

Zhexin Xu, Nikolas R. Sanderson, Hanna Jiamei Zhang + 1 more2026-03-03💻 cs

FoSS: Modeling Long Range Dependencies and Multimodal Uncertainty in Trajectory Prediction via Fourier State Space Integration

Die Arbeit stellt FoSS vor, ein neuartiges Dual-Branch-Framework, das Frequenzbereichsanalyse mit linearen State-Space-Modellen kombiniert, um bei autonomen Fahrzeugen sowohl langfristige Abhängigkeiten als auch multimodale Unsicherheiten in der Trajektorienvorhersage mit höherer Genauigkeit und deutlich reduzierter Rechenkomplexität zu modellieren.

Yizhou Huang, Gengze Jiang, Yihua Cheng + 1 more2026-03-03💻 cs

When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

Diese Studie zeigt, dass Reinforcement Learning medizinische Vision-Language-Modelle vor allem dann effektiv verbessert, wenn sie durch Supervised Fine-Tuning bereits über ein solides Grundverständnis verfügen, und stellt darauf aufbauend eine optimierte Trainingsstrategie vor, die zu starken Leistungen auf mehreren medizinischen VQA-Benchmarks führt.

Ahmadreza Jeddi, Kimia Shaban, Negin Baghbanzadeh + 4 more2026-03-03💻 cs

AG-VAS: Anchor-Guided Zero-Shot Visual Anomaly Segmentation with Large Multimodal Models

Das Paper stellt AG-VAS vor, ein neuartiges Framework, das Large Multimodal Models durch die Einführung lernbarer semantischer Anker-Token und spezialisierter Module für die semantische Ausrichtung nutzt, um im Zero-Shot-Setting präzise visuelle Anomaliesegmentierung zu ermöglichen und dabei den aktuellen Stand der Technik auf mehreren Benchmarks zu übertreffen.

Zhen Qu, Xian Tao, Xiaoyi Bao + 4 more2026-03-03🤖 cs.AI

SeaVIS: Sound-Enhanced Association for Online Audio-Visual Instance Segmentation

Das Paper stellt SeaVIS vor, ein bahnbrechendes Online-Framework für die Audio-Visuelle Instanzsegmentierung, das durch den Causal Cross Attention Fusion-Modul und die Audio-Guided Contrastive Learning-Strategie die Herausforderungen der Echtzeitverarbeitung und der Unterscheidung zwischen klingenden und stummen Objekten überwindet und dabei neue State-of-the-Art-Ergebnisse auf dem AVISeg-Datensatz erzielt.

Yingjian Zhu, Ying Wang, Yuyang Hong + 5 more2026-03-03💻 cs

Unifying Language-Action Understanding and Generation for Autonomous Driving

Die Arbeit stellt LinkVLA vor, ein neuartiges Modell für das autonome Fahren, das durch die Vereinheitlichung von Sprach- und Aktionstokens in einem gemeinsamen Codebuch, ein zusätzliches Verständnisziel für bidirektionale Semantik und eine effiziente C2F-Generierung die Ausrichtung zwischen Sprache und Aktionen verbessert sowie die Inferenzzeit um 86 % reduziert.

Xinyang Wang, Qian Liu, Wenjie Ding + 7 more2026-03-03💻 cs

Deepfake Forensics Adapter: A Dual-Stream Network for Generalizable Deepfake Detection

Die vorgestellte Arbeit stellt Deepfake Forensics Adapter (DFA) vor, ein dual-stream Framework, das durch die Kombination eines vortrainierten CLIP-Modells mit globalen und lokalen Forensik-Anpassern sowie einer interaktiven Fusion eine überlegene Generalisierungsfähigkeit und State-of-the-Art-Leistung bei der Erkennung von Deepfakes erreicht.

Jianfeng Liao, Yichen Wei, Raymond Chan Ching Bon + 3 more2026-03-03💻 cs