Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

Die Arbeit stellt VisionDrop vor, ein trainingsfreies Framework zur visuellen Token-Reduktion in Large Vision-Language Models, das durch die Vermeidung von textbasierten Annahmen und die Nutzung einer fortschrittlichen, rein visuellen Selektion sowie schrittweisen Pruning-Prozesse die Rechenkosten erheblich senkt, ohne dabei die Modellleistung signifikant zu beeinträchtigen.

Rui Xu, Yunke Wang, Yong Luo + 1 more2026-03-03💻 cs

ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving

Die Arbeit stellt ImagiDrive vor, ein einheitliches End-zu-End-Framework für autonomes Fahren, das die interpretierbare Entscheidungsfindung von Vision-Language-Modellen mit der realistischen Szenengeneration von Driving World Models in einem iterativen Planungs- und Imaginationszyklus vereint, um die Sicherheit und Leistungsfähigkeit in dynamischen Umgebungen zu verbessern.

Jingyu Li, Bozhou Zhang, Xin Jin + 3 more2026-03-03💻 cs

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

Das Paper stellt MOON vor, das erste generative multimodale Large-Language-Modell für das E-Commerce-Produktverständnis, das durch einen gelenkten Mixture-of-Experts-Ansatz, eine Unterdrückung von Hintergrundrauschen und eine spezialisierte negative Stichprobenstrategie die Darstellungslernen verbessert und zudem einen neuen großen multimodalen Benchmark (MBE) bereitstellt.

Daoze Zhang, Chenghan Fu, Zhanheng Nie + 7 more2026-03-03🤖 cs.AI

Adaptive Reinforcement for Open-ended Medical Reasoning via Semantic-Guided Reward Collapse Mitigation

Die Arbeit stellt ARMed vor, ein neuartiges Reinforcement-Learning-Framework, das durch die Kombination von Chain-of-Thought-Überwachtem Fine-Tuning und adaptiven semantischen Belohnungen das Problem des Reward-Collapses bei offenen medizinischen Bildfragen löst und so die Genauigkeit sowie Generalisierungsfähigkeit von Vision-Language-Modellen in klinischen Szenarien signifikant verbessert.

Yizhou Liu, Dingkang Yang, Zizhi Chen + 5 more2026-03-03💻 cs

Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

Die Autoren stellen einen neuartigen, entkoppelten Multi-Modal-Lernrahmen vor, der durch die Zerlegung von Histologie- und Transkriptomdaten in Tumor- und Mikroumgebungs-Subräume, eine konsistente Mehrskalen-Integration und eine wissensbasierte Destillation ohne strikte Datenpaarung die Herausforderungen der Heterogenität und Abhängigkeit von gepaarten Daten in der Krebscharakterisierung überwindet.

Yupei Zhang, Xiaofei Wang, Anran Liu + 2 more2026-03-03⚡ eess