Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

Die Arbeit stellt FlashCache vor, einen frequenzdomänengesteuerten Ansatz zur Komprimierung des Multimodal-KV-Caches, der durch die Identifizierung und Erhaltung von Ausreißer-KV-Paaren sowie eine dynamische Budgetzuweisung die Inferenzgeschwindigkeit und Speichereffizienz von Multimodal Large Language Models signifikant verbessert, ohne die Leistung zu beeinträchtigen.

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

Das Paper stellt ObAct vor, ein Framework für aktives visuelles Imitationslernen, bei dem ein Roboterarm als Beobachter eine 3D-Gaussian-Splatting-Repräsentation erstellt und eine optimale Kameraposition einnimmt, um die Sichtbarkeit für den ausführenden Arm zu maximieren und so die Robustheit der Politik gegenüber Verdeckungen signifikant zu verbessern.

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs

CycleChemist: A Dual-Pronged Machine Learning Framework for Organic Photovoltaic Discovery

Die Studie stellt CycleChemist vor, ein duales maschinelles Lernframework, das auf dem größten OPV-Datensatz (OPV2D) basiert und durch die Kombination von Vorhersagemodellen für die Leistungsfähigkeit mit einem generativen Transformer-Ansatz die datengetriebene Entdeckung hochleistungsfähiger organischer Photovoltaikmaterialien ermöglicht.

Hou Hei Lam, Jiangjie Qiu, Xiuyuan Hu + 5 more2026-03-06🔬 cond-mat.mtrl-sci

An AI Implementation Science Study to Improve Trustworthy Data in a Large Healthcare System

Diese Studie präsentiert eine Implementierungsanalyse bei Shriners Childrens, die durch die Modernisierung des Datenwarehouses auf OMOP CDM v5.4, die Entwicklung eines Python-basierten Datenqualitäts-Tools nach dem METRIC-Rahmenwerk und den Vergleich von KI-Implementierungsstrategien für Kraniofaziale Mikrosomie dazu beiträgt, vertrauenswürdige KI in der Gesundheitsversorgung zu fördern.

Benoit L. Marteau, Andrew Hornback, Shaun Q. Tan + 3 more2026-03-06💻 cs

Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

Die vorgestellte Arbeit führt einen Fairness-bewussten Fine-Tuning-Ansatz für medizinische Vision-Language-Modelle zur Glaukomdiagnose ein, der durch eine differentiable MaxAccGap-Verlustfunktion und effiziente Low-Rank Adaptation (LoRA) die diagnostischen Genauigkeitsunterschiede zwischen demografischen Gruppen um 69 % reduziert, ohne dabei die Gesamtgenauigkeit signifikant zu beeinträchtigen.

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

Guided Flow Policy: Learning from High-Value Actions in Offline Reinforcement Learning

Die Arbeit stellt die „Guided Flow Policy" (GFP) vor, eine Offline-Reinforcement-Learning-Methode, die durch die Kopplung eines mehrstufigen Flow-Matching-Policies mit einem destillierten Ein-Schritt-Aktor und einer gewichteten Behavior-Cloning-Strategie erfolgreich hochwertige Aktionen aus dem Datensatz lernt und dabei in 144 verschiedenen Aufgaben State-of-the-Art-Ergebnisse erzielt.

Franki Nguimatsia Tiofack, Théotime Le Hellard, Fabian Schramm + 2 more2026-03-06💻 cs

Bootstrapped Mixed Rewards for RL Post-Training: Injecting Canonical Action Order

Die Studie zeigt, dass das Mischen einer skalaren Belohnung für die Einhaltung einer kanonischen Lösungsreihenfolge mit der eigentlichen Aufgabenbelohnung beim Reinforcement-Learning-Post-Training von Transformern auf Zebra-Rätseln die Leistung verbessert, indem es das Modell zu kanonischen Lösungspfaden lenkt, ohne die Architektur oder die überwachungsdaten zu ändern.

Prakhar Gupta, Vaibhav Gupta2026-03-06💻 cs

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Das Paper stellt ReFusion vor, ein neuartiges Masked-Diffusion-Modell, das durch die Integration von Sequenzreorganisation in den kausalen Aufmerksamkeitsrahmen paralleles Slot-Level-Decoding ermöglicht, wodurch es sowohl die Ineffizienz von KV-Caching als auch die Lernkomplexität überwindet und gleichzeitig die Leistung früherer Diffusionsmodelle deutlich übertrifft und sich der Geschwindigkeit von autoregressiven Modellen annähert.

Jia-Nan Li, Jian Guan, Wei Wu + 1 more2026-03-06💻 cs