The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Die vorgestellte Arbeit führt das „Dual Tuning"-Framework ein, um durch den systematischen Vergleich von Chain-of-Thought- und Direkt-Antwort-Training eine „Denkgrenze" zu definieren, die bestimmt, für welche multimodalen Aufgaben reasoning-basierte Ansätze tatsächlich vorteilhaft sind und somit eine ressourcenschonende, adaptive Trainingsstrategie ermöglicht.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

Diese Arbeit stellt ein multimodales Deep-Learning-System vor, das Video-, Pose- und Objektdaten mittels 3D-CNNs, Graph-CNNs und Cross-Attention fusioniert, um Alltagsaktivitäten älterer Menschen in Ambient-Assisted-Living-Umgebungen robust zu erkennen und so deren Sicherheit und Selbstständigkeit zu fördern.

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

Diese Studie analysiert verschiedene Fusions- und Gruppierungsstrategien in Deep-Learning-Modellen zur Klassifizierung lokaler Klimazonen mittels multimodaler Fernerkundungsdaten und zeigt, dass eine hybride Fusionsmethode in Kombination mit Bandgruppierung und Label-Merging die höchste Genauigkeit von 76,6 % erzielt und insbesondere die Vorhersage für unterrepräsentierte Klassen verbessert.

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

Structure-Guided Histopathology Synthesis via Dual-LoRA Diffusion

Die Arbeit stellt „Dual-LoRA Controllable Diffusion" vor, ein einheitliches Diffusionsframework, das mithilfe von Multi-Class-Nukleus-Schwerpunkten als räumlichen Priors und zwei aufgaben spezifischen LoRA-Adaptern sowohl die lokale Strukturergänzung als auch die globale Gewebesynthese in der Histopathologie innerhalb eines einzigen Modells verbessert und dabei die strukturelle Treue sowie den Realismus gegenüber bestehenden Methoden signifikant steigert.

Xuan Xu, Prateek Prasanna2026-03-06💻 cs

Spinverse: Differentiable Physics for Permeability-Aware Microstructure Reconstruction from Diffusion MRI

Die Arbeit stellt Spinverse vor, eine differentiable Physik-Methode, die mittels eines durchgängig differenzierbaren Bloch-Torrey-Simulators und lernbarer Durchlässigkeitsparameter auf einem Tetraeder-Gitter die rekonstruierte Mikrostruktur aus Diffusions-MRT-Daten explizit als durchlässigkeitsbewusste Grenzflächen zurückgewinnt.

Prathamesh Pradeep Khole, Mario M. Brenes, Zahra Kais Petiwala + 5 more2026-03-06💻 cs

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Diese Studie zeigt, dass multimodale große Sprachmodelle im Zero-Shot-Setting für die Videoanomalieerkennung zwar präzise, aber aufgrund einer starken Verzerrung zugunsten normaler Ereignisse unzureichend zuverlässig sind, wobei spezifische Anweisungen die Leistung zwar signifikant verbessern können, die Erkennungsrate jedoch weiterhin eine kritische Schwachstelle bleibt.

Shanle Yao, Armin Danesh Pazho, Narges Rashvand + 1 more2026-03-06💻 cs

Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

Diese Landschaftskommentar-Studie zeigt, dass die GPT-5-Familie im Vergleich zu GPT-4o signifikante Fortschritte bei der multimodalen klinischen Reasoning-Aufgabe erzielt, insbesondere durch die Verknüpfung von Text und Bild, jedoch in hochspezialisierten, wahrnehmungskritischen Bereichen wie der Neuroradiologie und Mammographie noch nicht die Genauigkeit von domänenspezifischen Modellen erreicht.

Alexandru Florea, Shansong Wang, Mingzhe Hu + 5 more2026-03-06💻 cs