SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation

Die Arbeit stellt SGIFormer vor, einen neuartigen Transformer-basierten Ansatz für die 3D-Instanzsegmentierung, der durch eine semantisch geführte Abfrageinitialisierung und einen geometrie-gestärkten verschachtelten Decoder sowohl die Genauigkeit als auch die Effizienz bei der Verarbeitung großer 3D-Szenen verbessert und dabei neue State-of-the-Art-Ergebnisse auf mehreren Benchmark-Datensätzen erzielt.

Lei Yao, Yi Wang, Moyun Liu + 1 more2026-02-27💻 cs

IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks

Die Arbeit stellt IV-tuning vor, eine parameter-effiziente Transferlernmethode, die vortrainierte visuelle Modelle durch das Einfrieren der meisten Parameter nutzt, um die Generalisierungsfähigkeit und Skalierbarkeit bei Infrarot-Sicht-Aufgaben erheblich zu verbessern und dabei mit nur 3% trainierbaren Parametern den aktuellen Stand der Technik zu übertreffen.

Yaming Zhang, Chenqiang Gao, Fangcen Liu + 4 more2026-02-27💻 cs

MomentMix Augmentation with Length-Aware DETR for Temporally Robust Moment Retrieval

Die Arbeit stellt MomentMix, eine Augmentierungsmethode zur Steigerung der Merkmalsvielfalt bei kurzen Videomomenten, und einen Längen-bewussten Decoder vor, die gemeinsam mit einem DETR-basierten Modell die Genauigkeit der Moment-Retrieval-Aufgabe, insbesondere bei kurzen Zeitabschnitten, signifikant verbessern und neue State-of-the-Art-Ergebnisse auf mehreren Benchmarks erzielen.

Seojeong Park, Jiho Choi, Kyungjune Baek + 1 more2026-02-27🤖 cs.AI

Joint Optimization for 4D Human-Scene Reconstruction in the Wild

Das Paper stellt JOSH vor, eine neuartige optimierungsbasierte Methode zur gemeinsamen Rekonstruktion von menschlicher Bewegung und Umgebung aus monokularen Videos, die durch die Nutzung von Kontaktbeschränkungen zwischen Mensch und Szene sowohl die Genauigkeit der globalen Bewegungsabschätzung als auch der dichten Szenenrekonstruktion verbessert, sowie JOSH3R, ein effizientes, trainiertes Modell, das mit von JOSH generierten Pseudo-Labels über andere optimierungsfreie Methoden hinausgeht.

Zhizheng Liu, Joe Lin, Wayne Wu + 1 more2026-02-27💻 cs

ViT-Linearizer: Distilling Quadratic Knowledge into Linear-Time Vision Models

Die Arbeit stellt ViT-Linearizer vor, ein Framework zur Wissensdistillation, das die komplexen Repräsentationen von Vision-Transformern in effiziente, lineare rekurrente Modelle überträgt und dabei sowohl die Inferenzgeschwindigkeit bei hohen Auflösungen erheblich steigert als auch die Leistung von Mamba-Architekturen auf Standard-Benchmarks wie ImageNet signifikant verbessert.

Guoyizhe Wei, Rama Chellappa2026-02-27🤖 cs.AI

LAMM-ViT: AI Face Detection via Layer-Aware Modulation of Region-Guided Attention

Das Paper stellt LAMM-ViT, einen Vision Transformer mit regionsgeführter Aufmerksamkeit und schichtspezifischer Maskenmodulation, vor, der durch die Erkennung fundamentaler struktureller Inkonsistenzen in Gesichtern die Generalisierungsfähigkeit bei der Detektion von KI-generierten Fälschungen im Vergleich zum aktuellen Stand der Technik signifikant verbessert.

Jiangling Zhang, Weijie Zhu, Jirui Huang + 1 more2026-02-27💻 cs