ViT-Linearizer: Distilling Quadratic Knowledge into Linear-Time Vision Models

Die Arbeit stellt ViT-Linearizer vor, ein Framework zur Wissensdistillation, das die komplexen Repräsentationen von Vision-Transformern in effiziente, lineare rekurrente Modelle überträgt und dabei sowohl die Inferenzgeschwindigkeit bei hohen Auflösungen erheblich steigert als auch die Leistung von Mamba-Architekturen auf Standard-Benchmarks wie ImageNet signifikant verbessert.

Guoyizhe Wei, Rama Chellappa2026-02-27🤖 cs.AI

LAMM-ViT: AI Face Detection via Layer-Aware Modulation of Region-Guided Attention

Das Paper stellt LAMM-ViT, einen Vision Transformer mit regionsgeführter Aufmerksamkeit und schichtspezifischer Maskenmodulation, vor, der durch die Erkennung fundamentaler struktureller Inkonsistenzen in Gesichtern die Generalisierungsfähigkeit bei der Detektion von KI-generierten Fälschungen im Vergleich zum aktuellen Stand der Technik signifikant verbessert.

Jiangling Zhang, Weijie Zhu, Jirui Huang + 1 more2026-02-27💻 cs

Is Exchangeability better than I.I.D to handle Data Distribution Shifts while Pooling Data for Data-scarce Medical image segmentation?

Diese Arbeit schlägt eine auf Austauschbarkeit statt Unabhängigkeit basierende Methode vor, um durch die Kontrolle von Vordergrund-Hintergrund-Unterschieden in allen Netzwerkschichten die Verteilungsverschiebungen beim Zusammenführen heterogener medizinischer Bilddatensätze zu bewältigen und so die Segmentierungsleistung bei Datenknappheit zu verbessern.

Ayush Roy, Samin Enam, Jun Xia + 2 more2026-02-27🤖 cs.LG

LayerT2V: A Unified Multi-Layer Video Generation Framework

Das Paper stellt LayerT2V vor, ein einheitliches Framework für die Text-zu-Video-Generierung, das erstmals in einem einzigen Inferenzschritt semantisch konsistente, bearbeitbare Videoebenen (Hintergrund, Vordergrund und Alpha-Masken) erzeugt, indem es die Kompression moderner Backbones nutzt und durch das neue VidLayer-Dataset sowie spezielle Architekturmodifikationen trainiert wird.

Guangzhao Li, Kangrui Cen, Baixuan Zhao + 5 more2026-02-27🤖 cs.AI

Loc2^2: Interpretable Cross-View Localization via Depth-Lifted Local Feature Matching

Die Arbeit stellt Loc2^2 vor, eine interpretierbare und präzise Methode zur grob-feinen Cross-View-Lokalisierung, die die 3-DoF-Pose eines Bodenaufnahmeschusses durch das direkte Matching lokaler Merkmale mit einem Luftbild, deren Tiefenhebung und skalenbewusste Procrustes-Alignment schätzt, ohne auf globale Deskriptoren oder Pixel-Annotationen angewiesen zu sein.

Zimin Xia, Chenghao Xu, Alexandre Alahi2026-02-27💻 cs

ST-GS: Vision-Based 3D Semantic Occupancy Prediction with Spatial-Temporal Gaussian Splatting

Die Arbeit stellt ST-GS vor, ein neuartiges Framework zur 3D-Semantischen Okkupationsvorhersage, das durch eine leitlinienbasierte räumliche Aggregation und eine geometriebewusste zeitliche Fusion die räumliche Interaktion und zeitliche Konsistenz in visionbasierten autonomen Fahrszenen verbessert und dabei State-of-the-Art-Ergebnisse auf dem nuScenes-Benchmark erzielt.

Xiaoyang Yan, Muleilan Pei, Shaojie Shen2026-02-27💻 cs

Visual Instruction Pretraining for Domain-Specific Foundation Models

Die Arbeit stellt ViTP (Visual Instruction Pretraining) vor, einen neuen Ansatz, der durch die Einbettung eines Vision Transformers in ein Vision-Language-Modell und die Anwendung von Visual Robustness Learning (VRL) auf domänenspezifische Instruktionsdaten die Wahrnehmung durch logisches Schlussfolgern verbessert und damit auf 16 Benchmarks im Bereich der Fernerkundung und medizinischen Bildgebung neue State-of-the-Art-Ergebnisse erzielt.

Yuxuan Li, Yicheng Zhang, Wenhao Tang + 4 more2026-02-27💻 cs