Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

Diese Studie analysiert verschiedene Fusions- und Gruppierungsstrategien in Deep-Learning-Modellen zur Klassifizierung lokaler Klimazonen mittels multimodaler Fernerkundungsdaten und zeigt, dass eine hybride Fusionsmethode in Kombination mit Bandgruppierung und Label-Merging die höchste Genauigkeit von 76,6 % erzielt und insbesondere die Vorhersage für unterrepräsentierte Klassen verbessert.

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

Structure-Guided Histopathology Synthesis via Dual-LoRA Diffusion

Die Arbeit stellt „Dual-LoRA Controllable Diffusion" vor, ein einheitliches Diffusionsframework, das mithilfe von Multi-Class-Nukleus-Schwerpunkten als räumlichen Priors und zwei aufgaben spezifischen LoRA-Adaptern sowohl die lokale Strukturergänzung als auch die globale Gewebesynthese in der Histopathologie innerhalb eines einzigen Modells verbessert und dabei die strukturelle Treue sowie den Realismus gegenüber bestehenden Methoden signifikant steigert.

Xuan Xu, Prateek Prasanna2026-03-06💻 cs

Spinverse: Differentiable Physics for Permeability-Aware Microstructure Reconstruction from Diffusion MRI

Die Arbeit stellt Spinverse vor, eine differentiable Physik-Methode, die mittels eines durchgängig differenzierbaren Bloch-Torrey-Simulators und lernbarer Durchlässigkeitsparameter auf einem Tetraeder-Gitter die rekonstruierte Mikrostruktur aus Diffusions-MRT-Daten explizit als durchlässigkeitsbewusste Grenzflächen zurückgewinnt.

Prathamesh Pradeep Khole, Mario M. Brenes, Zahra Kais Petiwala + 5 more2026-03-06💻 cs

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Diese Studie zeigt, dass multimodale große Sprachmodelle im Zero-Shot-Setting für die Videoanomalieerkennung zwar präzise, aber aufgrund einer starken Verzerrung zugunsten normaler Ereignisse unzureichend zuverlässig sind, wobei spezifische Anweisungen die Leistung zwar signifikant verbessern können, die Erkennungsrate jedoch weiterhin eine kritische Schwachstelle bleibt.

Shanle Yao, Armin Danesh Pazho, Narges Rashvand + 1 more2026-03-06💻 cs

Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

Diese Landschaftskommentar-Studie zeigt, dass die GPT-5-Familie im Vergleich zu GPT-4o signifikante Fortschritte bei der multimodalen klinischen Reasoning-Aufgabe erzielt, insbesondere durch die Verknüpfung von Text und Bild, jedoch in hochspezialisierten, wahrnehmungskritischen Bereichen wie der Neuroradiologie und Mammographie noch nicht die Genauigkeit von domänenspezifischen Modellen erreicht.

Alexandru Florea, Shansong Wang, Mingzhe Hu + 5 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

Dieser technische Bericht stellt ein neues, datenschutzfreundliches Wahrnehmungsframework namens „Privacy-Aware Camera 2.0" vor, das mithilfe des AI-Flow-Paradigmas und einer Edge-Cloud-Architektur Rohbilder am Rand in irreversible abstrakte Merkmalsvektoren umwandelt, um gleichzeitig den Datenschutz zu gewährleisten und eine semantische Verhaltensanalyse sowie eine visuelle Rekonstruktion über eine „dynamische Kontur"-Sprache in der Cloud zu ermöglichen.

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

RMK RetinaNet: Rotated Multi-Kernel RetinaNet for Robust Oriented Object Detection in Remote Sensing Imagery

Die vorgestellte Arbeit stellt RMK RetinaNet vor, einen robusten Detektor für orientierte Objekte in Fernerkundungsbildern, der durch einen Multi-Scale-Kernel-Block, eine Multi-Directional-Contextual-Anchor-Attention-Mechanismus, einen Bottom-up-Pfad und ein Euler-Winkel-Kodierungsmodul die Herausforderungen der adaptiven Rezeptivfeldnutzung, der Merkmalsfusion und der Winkelregression adressiert.

Huiran Sun2026-03-06💻 cs