What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

Diese Studie stellt mit dem Werkzeug EmbedLens fest, dass Multimodale Large Language Models (MLLMs) eine ausgeprägte semantische Spärlichkeit aufweisen, bei der nur etwa 60 % der visuellen Tokens („alive") relevante Bildinformationen tragen, wodurch die meisten internen visuellen Berechnungen als redundant entlarvt werden und eine effizientere Architektur durch Token-Pruning sowie die direkte Injektion in mittlere LLM-Schichten ermöglicht wird.

Yingqi Fan, Junlong Tong, Anhao Zhao + 1 more2026-03-03🤖 cs.AI

Vision-TTT: Efficient and Expressive Visual Representation Learning with Test-Time Training

Das Paper stellt Vision-TTT vor, eine effiziente und ausdrucksstarke visuelle Repräsentationsmethode, die Test-Time Training mit bidirektionalen Scans und Conv2d-Modulen kombiniert, um die quadratische Komplexität von Vision Transformern zu überwinden und dabei auf ImageNet hohe Genauigkeit bei deutlich reduziertem Rechenaufwand und Speicherbedarf zu erreichen.

Quan Kong, Yanru Xiao, Yuhao Shen + 1 more2026-03-03💻 cs

Mesh-Pro: Asynchronous Advantage-guided Ranking Preference Optimization for Artist-style Quadrilateral Mesh Generation

Die Arbeit stellt Mesh-Pro vor, ein asynchrones Reinforcement-Learning-Framework mit einem neuartigen ARPO-Algorithmus und einer diagonalbewussten Tokenisierung, das die Trainingsgeschwindigkeit und die Generierungsqualität von künstlerischen quadratischen Meshes im Vergleich zu bestehenden Methoden signifikant verbessert.

Zhen Zhou, Jian Liu, Biwen Lei + 10 more2026-03-03💻 cs

RAFM: Retrieval-Augmented Flow Matching for Unpaired CBCT-to-CT Translation

Die vorgestellte Arbeit stellt RAFM vor, eine Methode zur unpaarigen CBCT-zu-CT-Übersetzung in der medizinischen Bildgebung, die durch den Einsatz von Retrieval-verstärktem Flow Matching und einem globalen CT-Speicherbank die Stabilität des Trainings verbessert und damit die Qualität synthetischer CT-Bilder für die Strahlentherapie signifikant steigert.

Xianhao Zhou, Jianghao Wu, Lanfeng Zhong + 4 more2026-03-03💻 cs

Multiple Inputs and Mixwd data for Alzheimer's Disease Classification Based on 3D Vision Transformer

Diese Studie stellt die MIMD-3DVT-Methode vor, einen neuartigen 3D-Vision-Transformer, der durch die Integration von gemischten Daten (soziodemografische Faktoren, kognitive Tests und 3D-MRT-Bilder) sowie die Verarbeitung mehrerer ROI-Eingaben eine Genauigkeit von 97,14 % bei der Klassifizierung von Alzheimer erreicht und damit den aktuellen Stand der Technik übertrifft.

Juan A. Castro-Silva, Maria N. Moreno Garcia, Diego H. Peluffo-Ordoñez2026-03-03💻 cs

Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation

Diese Arbeit stellt mit M-JudgeBench ein zehndimensionales, kapazitätsorientiertes Benchmark zur umfassenden Bewertung von Multimodal-LLMs als Richter vor und schlägt das Daten-Generierungs-Framework Judge-MCTS vor, um durch trainierte Modelle wie M-Judger die Zuverlässigkeit und Leistungsfähigkeit von Bewertungssystemen signifikant zu verbessern.

Zeyu Chen, Huanjin Yao, Ziwang Zhao + 1 more2026-03-03🤖 cs.AI

Weakly Supervised Video Anomaly Detection with Anomaly-Connected Components and Intention Reasoning

Das Paper stellt LAS-VAD vor, einen neuartigen Rahmen für die schwach überwachte Videoanomalieerkennung, der durch die Kombination von Anomalie-vernetzten Komponenten, Intentionserkennung und Attributinformationen die semantische Unterscheidung zwischen normalen und anomalen Ereignissen verbessert und damit den aktuellen Stand der Technik auf Benchmark-Datensätzen übertrifft.

Yu Wang, Shengjie Zhao2026-03-03💻 cs

Decoupling Stability and Plasticity for Multi-Modal Test-Time Adaptation

Die Arbeit stellt DASP vor, ein neuartiges Diagnose-und-Minderungs-Framework für die multimodale Testzeit-Adaptation, das durch die Ausnutzung interdimensionaler Redundanz und eine asymmetrische Strategie mit entkoppelten stabilen und plastischen Komponenten negative Übertragung sowie katastrophales Vergessen effektiv verhindert und so den aktuellen Stand der Technik übertrifft.

Yongbo He, Zirun Guo, Tao Jin2026-03-03🤖 cs.AI

Data-Centric Benchmark for Label Noise Estimation and Ranking in Remote Sensing Image Segmentation

Diese Arbeit stellt einen datenzentrischen Benchmark, einen neuen öffentlichen Datensatz sowie zwei innovative Methoden vor, die auf Modellunsicherheit, Vorhersagekonsistenz und Repräsentationsanalyse basieren, um Rauschen in den Labels von Fernerkundungsbildern für die semantische Segmentierung effektiv zu identifizieren, zu quantifizieren und zu bewerten.

Keiller Nogueira, Codrut-Andrei Diaconu, Dávid Kerekes + 9 more2026-03-03💻 cs