Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

Die Arbeit stellt Dr. Seg vor, ein plug-and-play-Framework für visuelle Großsprachenmodelle, das durch einen Look-to-Confirm-Mechanismus und ein rangbasiertes Belohnungssystem die Annahme widerlegt, dass reine Sprachtrainingsparadigmen nahtlos auf visuelle Wahrnehmungsaufgaben übertragbar sind, und so die Leistung in komplexen Szenarien signifikant verbessert.

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

Die Arbeit stellt AlignVAR vor, ein neuartiges visuelles autoregressives Framework für die Bildsuperauflösung, das durch die Einführung von Spatial Consistency Autoregression und Hierarchical Consistency Constraint globale Konsistenz sicherstellt und dabei sowohl die strukturelle Kohärenz als auch die Inferenzgeschwindigkeit im Vergleich zu bestehenden Diffusionsmodellen erheblich verbessert.

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

Die Arbeit stellt Dr. Occ vor, ein Framework für die 3D-Besetzungsvorhersage aus Umgebungskameras, das durch eine tiefen- und regionsgeführte Architektur geometrische Ausrichtungsfehler und räumliche Klassenungleichgewichte überwindet und damit auf dem Occ3D-nuScenes-Benchmark signifikante Verbesserungen gegenüber bestehenden Methoden erzielt.

Xubo Zhu, Haoyang Zhang, Fei He + 4 more2026-03-06💻 cs

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Die Arbeit stellt Kiwi-Edit vor, ein neues State-of-the-Art-System für die videobasierte Bearbeitung, das durch eine skalierbare Datengenerierungspipeline, den daraus resultierenden großen Datensatz RefVIE und eine einheitliche Architektur mit lernbaren Abfragen die präzise Steuerung von Video-Edits mittels natürlicher Sprache und Referenzbildern erheblich verbessert.

Yiqi Lin, Guoqiang Liang, Ziyun Zeng + 3 more2026-03-06💻 cs

A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces

Die Autoren stellen ein morphologieentkoppeltes Framework vor, das durch den Einsatz von Zero-Initialized Gated Cross-Task Attention und einer gemischten Überwachungsstrategie die gemeinsame Detektion von Lakunen und erweiterten perivaskulären Räumen bei zerebralen Kleingefäßerkrankungen verbessert und dabei auf dem VALDO-2021-Datensatz sowie einer externen Kohorte state-of-the-art-Ergebnisse erzielt.

Lucas He, Krinos Li, Hanyuan Zhang + 7 more2026-03-06💻 cs

Gaussian Wardrobe: Compositional 3D Gaussian Avatars for Free-Form Virtual Try-On

Das Paper stellt „Gaussian Wardrobe" vor, ein neuartiges Framework, das mittels einer compositionalen 3D-Gaussian-Repräsentation aus Multi-View-Videos photorealistische Avatare mit entkoppelten, formunabhängigen Kleidungsstücken erzeugt, um so eine flexible virtuelle Anprobe und Wiederverwendung von Kleidung auf verschiedenen Personen zu ermöglichen.

Zhiyi Chen, Hsuan-I Ho, Tianjian Jiang + 3 more2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Die vorgestellte Arbeit führt das „Dual Tuning"-Framework ein, um durch den systematischen Vergleich von Chain-of-Thought- und Direkt-Antwort-Training eine „Denkgrenze" zu definieren, die bestimmt, für welche multimodalen Aufgaben reasoning-basierte Ansätze tatsächlich vorteilhaft sind und somit eine ressourcenschonende, adaptive Trainingsstrategie ermöglicht.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

Diese Arbeit stellt ein multimodales Deep-Learning-System vor, das Video-, Pose- und Objektdaten mittels 3D-CNNs, Graph-CNNs und Cross-Attention fusioniert, um Alltagsaktivitäten älterer Menschen in Ambient-Assisted-Living-Umgebungen robust zu erkennen und so deren Sicherheit und Selbstständigkeit zu fördern.

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs