ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving

Die Arbeit stellt ImagiDrive vor, ein einheitliches End-zu-End-Framework für autonomes Fahren, das die interpretierbare Entscheidungsfindung von Vision-Language-Modellen mit der realistischen Szenengeneration von Driving World Models in einem iterativen Planungs- und Imaginationszyklus vereint, um die Sicherheit und Leistungsfähigkeit in dynamischen Umgebungen zu verbessern.

Jingyu Li, Bozhou Zhang, Xin Jin + 3 more2026-03-03💻 cs

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

Das Paper stellt MOON vor, das erste generative multimodale Large-Language-Modell für das E-Commerce-Produktverständnis, das durch einen gelenkten Mixture-of-Experts-Ansatz, eine Unterdrückung von Hintergrundrauschen und eine spezialisierte negative Stichprobenstrategie die Darstellungslernen verbessert und zudem einen neuen großen multimodalen Benchmark (MBE) bereitstellt.

Daoze Zhang, Chenghan Fu, Zhanheng Nie + 7 more2026-03-03🤖 cs.AI

Adaptive Reinforcement for Open-ended Medical Reasoning via Semantic-Guided Reward Collapse Mitigation

Die Arbeit stellt ARMed vor, ein neuartiges Reinforcement-Learning-Framework, das durch die Kombination von Chain-of-Thought-Überwachtem Fine-Tuning und adaptiven semantischen Belohnungen das Problem des Reward-Collapses bei offenen medizinischen Bildfragen löst und so die Genauigkeit sowie Generalisierungsfähigkeit von Vision-Language-Modellen in klinischen Szenarien signifikant verbessert.

Yizhou Liu, Dingkang Yang, Zizhi Chen + 5 more2026-03-03💻 cs

Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

Die Autoren stellen einen neuartigen, entkoppelten Multi-Modal-Lernrahmen vor, der durch die Zerlegung von Histologie- und Transkriptomdaten in Tumor- und Mikroumgebungs-Subräume, eine konsistente Mehrskalen-Integration und eine wissensbasierte Destillation ohne strikte Datenpaarung die Herausforderungen der Heterogenität und Abhängigkeit von gepaarten Daten in der Krebscharakterisierung überwindet.

Yupei Zhang, Xiaofei Wang, Anran Liu + 2 more2026-03-03⚡ eess

Time-Aware One Step Diffusion Network for Real-World Image Super-Resolution

Die Arbeit stellt TADSR vor, ein zeitaufmerksames Ein-Schritt-Diffusionsnetzwerk, das durch einen zeitaufmerksamen VAE-Encoder und einen entsprechenden VSD-Verlust die generativen Priors eines vortrainierten Stable-Diffusion-Modells bei variierenden Zeitschritten effektiv nutzt, um für die reale Bild-Super-Resolution sowohl einen State-of-the-Art-Ergebnis als auch eine kontrollierbare Balance zwischen Fidelity und Realismus zu erreichen.

Tianyi Zhang, Zheng-Peng Duan, Peng-Tao Jiang + 4 more2026-03-03⚡ eess

FastAvatar: Towards Unified and Fast 3D Avatar Reconstruction with Large Gaussian Reconstruction Transformers

FastAvatar ist ein einheitliches Feedforward-Framework, das mithilfe eines Large Gaussian Reconstruction Transformers (LGRT) innerhalb von Sekunden hochwertige 3D-Gaussian-Splatting-Modelle aus alltäglichen Aufnahmen rekonstruiert und dabei eine flexible, inkrementelle Qualitätssteigerung bei variabler Eingabedatenmenge ermöglicht.

Yue Wu, Xuanhong Chen, Yufan Wu + 3 more2026-03-03💻 cs