AeroDGS: Physically Consistent Dynamic Gaussian Splatting for Single-Sequence Aerial 4D Reconstruction

Die Arbeit stellt AeroDGS vor, ein physikgestütztes Framework zur 4D-Rekonstruktion dynamischer Szenen aus einzelnen UAV-Aufnahmen, das durch einen geometrischen Lifting-Modul und physikalische Optimierungsprioritäten die inhärente Mehrdeutigkeit monokularer Luftaufnahmen überwindet und eine präzise, physikalisch konsistente Darstellung sowohl statischer Hintergründe als auch dynamischer Objekte ermöglicht.

Hanyang Liu, Rongjun Qin2026-02-27🤖 cs.AI

MolFM-Lite: Multi-Modal Molecular Property Prediction with Conformer Ensemble Attention and Cross-Modal Fusion

Die Arbeit stellt MolFM-Lite vor, ein mehrmodales Modell zur Vorhersage molekularer Eigenschaften, das durch die Kombination von SELFIES-Sequenzen, Graphen und Konformer-Ensembles mittels Cross-Attention sowie kontextabhängiger FiLM-Modulation die Leistungsfähigkeit gegenüber einmodalen Baselines signifikant steigert.

Syed Omer Shah, Mohammed Maqsood Ahmed, Danish Mohiuddin Mohammed + 2 more2026-02-27🤖 cs.LG

Exploring Multimodal LMMs for Online Episodic Memory Question Answering on the Edge

Diese Studie untersucht die Machbarkeit von Multimodalen Large Language Models (MLLMs) für den Echtzeit-Abgleich episodischer Erinnerungen auf Edge-Geräten und zeigt, dass eine lokale Implementierung mit einem zweistufigen asynchronen Pipeline-Ansatz eine hohe Genauigkeit und niedrige Latenz erreicht, die mit Cloud-Lösungen vergleichbar sind, während sie gleichzeitig Datenschutz und Reaktionszeiten verbessert.

Giuseppe Lando, Rosario Forte, Antonino Furnari2026-02-27💻 cs

MammoWise: Multi-Model Local RAG Pipeline for Mammography Report Generation

Das Paper stellt MammoWise vor, ein lokales, mehrstufiges Pipeline-System, das Open-Source-Vision-Language-Modelle durch Techniken wie Few-Shot-Prompting und Retrieval-Augmented Generation (RAG) in der Lage versetzt, präzise Mammographie-Berichte zu generieren und klinische Klassifikationen wie BI-RADS sowie Brustdichte zuverlässig zu bestimmen.

Raiyan Jahangir, Nafiz Imtiaz Khan, Amritanand Sudheerkumar + 1 more2026-02-27💻 cs

HARU-Net: Hybrid Attention Residual U-Net for Edge-Preserving Denoising in Cone-Beam Computed Tomography

Die Studie stellt HARU-Net vor, ein neuartiges hybrides U-Net mit Aufmerksamkeitsmechanismen und Residuenblöcken, das Rauschen in konischen Strahlen-Computertomographie-Bildern (CBCT) effektiv reduziert und dabei Kanten sowie anatomische Details besser erhält als bestehende Methoden, was die diagnostische Qualität bei niedrigen Strahlendosen verbessert.

Khuram Naveed, Ruben Pauwels2026-02-27⚡ eess

DisQ-HNet: A Disentangled Quantized Half-UNet for Interpretable Multimodal Image Synthesis Applications to Tau-PET Synthesis from T1 and FLAIR MRI

Die Arbeit stellt DisQ-HNet vor, ein interpretierbares, quantisiertes Halb-UNet-Modell, das mittels Partial Information Decomposition und pseudo-Skip-Connections T1- und FLAIR-MRT-Daten nutzt, um aussagekräftige Tau-PET-Bilder zur Unterstützung der Alzheimer-Diagnostik zu synthetisieren.

Agamdeep S. Chopra, Caitlin Neher, Tianyi Ren + 2 more2026-02-27🤖 cs.AI

DrivePTS: A Progressive Learning Framework with Textual and Structural Enhancement for Driving Scene Generation

Die Arbeit stellt DrivePTS vor, ein progressives Lernframework für die Generierung von Fahrzeugszenen, das durch die Entkopplung geometrischer Bedingungen, die Nutzung von Vision-Language-Modellen für detaillierte Textbeschreibungen und einen frequenzgesteuerten Strukturverlust die Fidelity und Kontrollierbarkeit gegenüber bestehenden Methoden signifikant verbessert.

Zhechao Wang, Yiming Zeng, Lufan Ma + 4 more2026-02-27🤖 cs.AI

Quality-Aware Robust Multi-View Clustering for Heterogeneous Observation Noise

Das Paper stellt QARMVC vor, einen neuartigen Rahmen für robustes Multi-View-Clustering, der mittels eines Informationsengpass-Mechanismus instanzspezifische Qualitätsbewertungen zur präzisen Erfassung heterogener Beobachtungsrauschen nutzt, um durch gewichtete Kontrastive Lernziele und eine konsensbasierte Fusion die Clusterleistung gegenüber dem Zustand der Technik zu verbessern.

Peihan Wu, Guanjie Cheng, Yufei Tong + 2 more2026-02-27🤖 cs.AI

Guidance Matters: Rethinking the Evaluation Pitfall for Text-to-Image Generation

Diese Arbeit enthüllt eine kritische Evaluationslücke, bei der herkömmliche Methoden fälschlicherweise große Guidance-Scales bevorzugen, und stellt mit dem GA-Eval-Framework sowie der TDG-Methode eine korrigierte Bewertungsgrundlage vor, die zeigt, dass viele aktuelle Ansätze in der Praxis keine echten Verbesserungen gegenüber dem Standard Classifier-free Guidance bieten.

Dian Xie, Shitong Shao, Lichen Bai + 5 more2026-02-27🤖 cs.AI

Causal Motion Diffusion Models for Autoregressive Motion Generation

Die Arbeit stellt CMDM vor, ein einheitliches Framework für die autoregressive Bewegungsgenerierung, das auf einem kausalen Diffusions-Transformer und einem semantisch ausgerichteten latenten Raum basiert, um hochwertige, flüssige und in Echtzeit generierbare Bewegungen zu ermöglichen, die sowohl die kausale Konsistenz als auch die Inferenzgeschwindigkeit bestehender Modelle verbessern.

Qing Yu, Akihisa Watanabe, Kent Fujiwara2026-02-27💻 cs

BetterScene: 3D Scene Synthesis with Representation-Aligned Generative Model

Die Arbeit stellt BetterScene vor, eine Methode zur Verbesserung der Novel View Synthesis für reale Szenen mit extrem wenigen Fotos, die durch die Anpassung des VAE-Moduls des Stable Video Diffusion-Modells an geometrische und semantische Konsistenz sowie die Integration von 3D-Gaussian-Splatting Artefakte reduziert und visuell konsistente Ergebnisse liefert.

Yuci Han, Charles Toth, John E. Anderson + 2 more2026-02-27🤖 cs.AI

ϕϕ-DPO: Fairness Direct Preference Optimization Approach to Continual Learning in Large Multimodal Models

Diese Arbeit stellt I¨•Ï•-DPO vor, einen neuartigen Fairness-Direct-Preference-Optimization-Ansatz für das kontinuierliche Lernen in großen multimodalen Modellen, der durch die Einführung eines spezialisierten Verlustterms und die Erstellung von Präferenzannotationen sowohl das katastrophale Vergessen als auch Verzerrungen durch unausgewogene Datenverteilungen adressiert und dabei State-of-the-Art-Ergebnisse erzielt.

Thanh-Dat Truong, Huu-Thien Tran, Jackson Cothren + 2 more2026-02-27🤖 cs.LG