GaussianFormer3D: Multi-Modal Gaussian-based Semantic Occupancy Prediction with 3D Deformable Attention

Die Arbeit stellt GaussianFormer3D vor, ein neuartiges Framework für die semantische 3D-Belegungsvorhersage, das durch eine LiDAR-initialisierte 3D-Gauß-Methode und einen LiDAR-gesteuerten deformierbaren Aufmerksamkeitsmechanismus im Vergleich zu herkömmlichen Voxel-basierten Ansätzen eine state-of-the-art Genauigkeit bei gleichzeitig reduziertem Speicherbedarf und höherer Effizienz erreicht.

Lingjun Zhao, Sizhe Wei, James Hays + 1 more2026-02-17💻 cs

RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding

Das Paper stellt RAVENEA vor, einen neuen Benchmark, der durch die Integration von über 11.000 kuratierten Wikipedia-Dokumenten und die Evaluation von Retrieval-Augmented-Generation-Systemen die Lücke im kulturellen Verständnis multimodaler Vision-Sprach-Modelle schließt und nachweist, dass kulturbewusste Abrufmechanismen die Leistung bei visuellen Fragen und Bildbeschreibungen signifikant verbessern.

Jiaang Li, Yifei Yuan, Wenyan Li + 8 more2026-02-17💬 cs.CL

OmniEarth-Bench: Towards Holistic Evaluation of Earth's Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data

Das Paper stellt OmniEarth-Bench vor, den ersten multimodalen Benchmark, der mit 109 expertenkuratierten Aufgaben systematisch alle sechs Erdsphären und deren Wechselwirkungen bewertet und dabei zeigt, dass selbst fortschrittlichste Multimodal-Modelle in diesem Bereich erhebliche kognitive Defizite aufweisen.

Fengxiang Wang, Mingshuo Chen, Xuming He + 15 more2026-02-17🤖 cs.LG

Multi-Spectral Gaussian Splatting with Neural Color Representation

Die Arbeit stellt MS-Splatting vor, ein Framework für multi-spektrale 3D-Gaussian-Splatting, das mithilfe einer neuronalen Farbrepräsentation und eines gemeinsamen Feature-Embeddings konsistente neue Ansichten aus verschiedenen Spektralbereichen ohne Kreuzkalibrierung erzeugt und dabei sowohl die multispektrale als auch die einzel-spektrale Renderqualität verbessert.

Lukas Meyer, Josef Grün, Maximilian Weiherer + 3 more2026-02-17🤖 cs.AI

Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model

Das Paper stellt AliTok vor, einen neuartigen, ausgerichteten Tokenizer, der durch die Umgestaltung der Abhängigkeitsstruktur von Bild-Token-Sequenzen die inhärente Fehlausrichtung zwischen bidirektionalen Tokenisierungen und unidirektionalen autoregressiven Modellen auflöst und so eine State-of-the-Art-Bildgenerierung mit hoher Qualität und schnellerer Inferenz als Diffusionsmodelle ermöglicht.

Pingyu Wu, Kai Zhu, Yu Liu + 6 more2026-02-17💻 cs

Stretching Beyond the Obvious: A Gradient-Free Framework to Unveil the Hidden Landscape of Visual Invariance

Die Studie stellt „Stretch-and-Squeeze" (SnS), ein gradientenfreies Framework vor, das systematisch die maximal invarianten Reize und die Anfälligkeit für adversariale Angriffe in biologischen und künstlichen visuellen Systemen charakterisiert, indem es Bildtransformationen als bi-zieloptimierte Probleme formuliert, um zu zeigen, wie sich Invarianzen je nach Verarbeitungsebene unterscheiden und die Interpretierbarkeit durch Menschen beeinflussen.

Lorenzo Tausani, Paolo Muratore, Morgan B. Talbot + 3 more2026-02-17💻 cs

HMSViT: A Hierarchical Masked Self-Supervised Vision Transformer for Corneal Nerve Segmentation and Diabetic Neuropathy Diagnosis

Die Studie stellt HMSViT vor, einen hierarchischen, selbstüberwachten Vision Transformer, der durch effiziente Multi-Scale-Feature-Extraktion und blockmaskiertes Lernen eine präzise Segmentierung von Hornhautnerven und eine zuverlässige Diagnose der diabetischen Neuropathie ermöglicht und dabei den aktuellen Stand der Technik übertrifft.

Xin Zhang, Liangxiu Han, Yue Shi + 4 more2026-02-17💻 cs

An Agentic System for Rare Disease Diagnosis with Traceable Reasoning

Das Paper stellt DeepRare vor, ein auf großen Sprachmodellen basierendes Multi-Agenten-System, das durch die Integration heterogener klinischer Daten und über 40 spezialisierter Tools präzise Differentialdiagnosen für seltene Erkrankungen mit nachvollziehbarer, evidenzbasierter Begründung liefert und dabei in umfangreichen Tests signifikant bessere Ergebnisse als bestehende Methoden erzielt.

Weike Zhao, Chaoyi Wu, Yanjie Fan + 10 more2026-02-17💬 cs.CL