Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

Die Arbeit stellt FlashCache vor, einen frequenzdomänengesteuerten Ansatz zur Komprimierung des Multimodal-KV-Caches, der durch die Identifizierung und Erhaltung von Ausreißer-KV-Paaren sowie eine dynamische Budgetzuweisung die Inferenzgeschwindigkeit und Speichereffizienz von Multimodal Large Language Models signifikant verbessert, ohne die Leistung zu beeinträchtigen.

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

Das Paper stellt ObAct vor, ein Framework für aktives visuelles Imitationslernen, bei dem ein Roboterarm als Beobachter eine 3D-Gaussian-Splatting-Repräsentation erstellt und eine optimale Kameraposition einnimmt, um die Sichtbarkeit für den ausführenden Arm zu maximieren und so die Robustheit der Politik gegenüber Verdeckungen signifikant zu verbessern.

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

Die Arbeit stellt PowerCLIP vor, ein neuartiges kontrastives Vor-Trainingsframework, das durch effiziente nicht-lineare Aggregatoren (NLAs) eine exponentiell komplexe Powerset-Ausrichtung von Bildregionen und Textphrasen auf lineare Komplexität reduziert, um die Zusammensetzung von Semantik zu verbessern und damit den State-of-the-Art bei Zero-Shot-Aufgaben zu übertreffen.

Masaki Kawamura, Nakamasa Inoue, Rintaro Yanagi + 2 more2026-03-06💻 cs

Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

Die vorgestellte Arbeit führt einen Fairness-bewussten Fine-Tuning-Ansatz für medizinische Vision-Language-Modelle zur Glaukomdiagnose ein, der durch eine differentiable MaxAccGap-Verlustfunktion und effiziente Low-Rank Adaptation (LoRA) die diagnostischen Genauigkeitsunterschiede zwischen demografischen Gruppen um 69 % reduziert, ohne dabei die Gesamtgenauigkeit signifikant zu beeinträchtigen.

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance

Die Arbeit stellt DriverGaze360 vor, einen umfassenden Datensatz mit rund einer Million gaze-labeled Frames aus 360°-Sicht sowie das zugehörige Deep-Learning-Modell DriverGaze360-Net, das durch objektleitende Aufmerksamkeit und semantische Segmentierung die Vorhersage von Fahreraufmerksamkeit in panoramischen Fahrtszenarien auf den aktuellen Stand der Technik hebt.

Shreedhar Govil, Didier Stricker, Jason Rambach2026-03-06💻 cs

FluenceFormer: Transformer-Driven Multi-Beam Fluence Map Regression for Radiotherapy Planning

Die Arbeit stellt FluenceFormer vor, ein transformer-basiertes Framework mit einem zweistufigen, physik-informierten Ansatz zur direkten Regression von Strahlungsflusskarten für die Radiotherapie, das durch die Integration anatomischer und geometrischer Informationen sowie einer speziellen Verlustfunktion signifikant präzisere und physikalisch konsistentere Behandlungspläne als herkömmliche CNN-Methoden erzeugt.

Ujunwa Mgboh, Rafi Ibn Sultan, Joshua Kim + 2 more2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Die Studie zeigt, dass aktuelle multimodale Basis-Modelle bei der Identifizierung kontextuell wichtiger Momente in Fußballvideos kaum besser als Zufall sind, da sie oft auf eine einzelne dominante Modalität angewiesen sind und keine effektive Synthese aus mehreren Quellen leisten, was den Bedarf an modularen Architekturen und ergänzenden Trainingsverfahren unterstreicht.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs