High Dynamic Range Imaging Based on an Asymmetric Event-SVE Camera System

Die Autoren stellen ein hardware-algorithmisch co-designtes HDR-Bildgebungssystem vor, das eine asymmetrische Kombination aus einem SVE-Mikroabschwächungskamera- und einem Event-Sensor durch ein zweistufiges Ausrichtungsframework und ein fusionierendes Rekonstruktionsnetzwerk nutzt, um in extremen Lichtverhältnissen überbelichtete Bereiche zu rekonstruieren und die Bildqualität gegenüber reinen Einzelmodalitätsansätzen signifikant zu verbessern.

Pengju Sun, Banglei Guan, Jing Tao + 4 more2026-03-03💻 cs

U-VLM: Hierarchical Vision Language Modeling for Report Generation

Das Paper stellt U-VLM vor, ein hierarchisches Vision-Language-Modell, das durch progressive Vorverarbeitung von Segmentierungs- zu Klassifikations- und Berichtsaufgaben sowie durch mehrschichtige visuelle Injektion von U-Net-Features in den Sprachdecoder den aktuellen Stand der Technik bei der automatisierten Generierung radiologischer Berichte aus 3D-Bildern übertrifft.

Pengcheng Shi, Minghui Zhang, Kehan Song + 3 more2026-03-03💻 cs

Analyzing Physical Adversarial Example Threats to Machine Learning in Election Systems

Diese Arbeit entwickelt ein probabilistisches Rahmenwerk zur Quantifizierung des Einflusses physischer adversarialer Beispiele auf Wahlergebnisse und zeigt durch umfangreiche Experimente mit 144.000 ausgedruckten Stimmzetteln auf, dass sich die effektivsten Angriffsarten im physischen Bereich von denen im digitalen Bereich unterscheiden.

Khaleque Md Aashiq Kamal, Surya Eada, Aayushi Verma + 4 more2026-03-03🤖 cs.LG

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

Der Artikel stellt ArtiFixer vor, eine zweistufige Methode, die ein bidirektionales generatives Modell mit einem neuartigen Opazitäts-Mixing-Strategie trainiert und dieses in ein kausales auto-regressives Modell destilliert, um 3D-Rekonstruktionen durch die effiziente Generierung konsistenter neuer Ansichten zu verbessern und Artefakte in nicht beobachteten Bereichen zu beheben.

Riccardo de Lutio, Tobias Fischer, Yen-Yu Chang + 7 more2026-03-03🤖 cs.LG

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

Diese Studie stellt mit dem Werkzeug EmbedLens fest, dass Multimodale Large Language Models (MLLMs) eine ausgeprägte semantische Spärlichkeit aufweisen, bei der nur etwa 60 % der visuellen Tokens („alive") relevante Bildinformationen tragen, wodurch die meisten internen visuellen Berechnungen als redundant entlarvt werden und eine effizientere Architektur durch Token-Pruning sowie die direkte Injektion in mittlere LLM-Schichten ermöglicht wird.

Yingqi Fan, Junlong Tong, Anhao Zhao + 1 more2026-03-03🤖 cs.AI

Vision-TTT: Efficient and Expressive Visual Representation Learning with Test-Time Training

Das Paper stellt Vision-TTT vor, eine effiziente und ausdrucksstarke visuelle Repräsentationsmethode, die Test-Time Training mit bidirektionalen Scans und Conv2d-Modulen kombiniert, um die quadratische Komplexität von Vision Transformern zu überwinden und dabei auf ImageNet hohe Genauigkeit bei deutlich reduziertem Rechenaufwand und Speicherbedarf zu erreichen.

Quan Kong, Yanru Xiao, Yuhao Shen + 1 more2026-03-03💻 cs

Mesh-Pro: Asynchronous Advantage-guided Ranking Preference Optimization for Artist-style Quadrilateral Mesh Generation

Die Arbeit stellt Mesh-Pro vor, ein asynchrones Reinforcement-Learning-Framework mit einem neuartigen ARPO-Algorithmus und einer diagonalbewussten Tokenisierung, das die Trainingsgeschwindigkeit und die Generierungsqualität von künstlerischen quadratischen Meshes im Vergleich zu bestehenden Methoden signifikant verbessert.

Zhen Zhou, Jian Liu, Biwen Lei + 10 more2026-03-03💻 cs