RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics

Das Paper stellt RoboSpatial vor, einen groß angelegten Datensatz mit 1 Million Bildern, 5.000 3D-Scans und 3 Millionen annotierten räumlichen Beziehungen, der entwickelt wurde, um räumliches Verständnis in 2D- und 3D-Vision-Language-Modellen für die Robotik zu verbessern und deren Leistung in Aufgaben wie Manipulation und räumlicher Vorhersage signifikant zu steigern.

Chan Hee Song, Valts Blukis, Jonathan Tremblay + 3 more2026-02-19💬 cs.CL

LMSeg: Unleashing the Power of Large-Scale Models for Open-Vocabulary Semantic Segmentation

Die Arbeit stellt LMSeg vor, eine Methode zur offenen Vokabular-Semantiksegmentation, die durch die Generierung bereicherter Sprachprompts mittels großer Sprachmodelle (LLMs) und die Fusion von CLIP- und SAM-Visualsemantiken mittels einer lernbaren gewichteten Strategie die Leistungsfähigkeit bestehender Ansätze auf Benchmark-Datensätzen signifikant verbessert.

Huadong Tang, Youpeng Zhao, Yan Huang + 3 more2026-02-19🤖 cs.LG

Frequency-Aware Vision Transformers for High-Fidelity Super-Resolution of Earth System Models

Die Studie stellt die frequenzbewussten Frameworks ViSIR und ViFOR vor, die durch die Kombination von Vision Transformern mit sinusförmigen Aktivierungen bzw. expliziten Fourier-Filtern die spektrale Verzerrung herkömmlicher Deep-Learning-Methoden überwinden und so die hochauflösende Rekonstruktion von Erdystemmodellen signifikant verbessern.

Ehsan Zeraatkar, Salah A Faroughi, Jelena Tešić2026-02-19💻 cs

FOCUS on Contamination: Hydrology-Informed Noise-Aware Learning for Geospatial PFAS Mapping

Das Paper stellt FOCUS vor, ein geospatiales Deep-Learning-Framework, das spärliche PFAS-Messdaten mit hydrologischen und umweltbezogenen Kontextinformationen kombiniert, um robuste und skalierbare Kontaminationskarten zu erstellen, die trotz fehlender vollständiger physikalischer Modelle eine effektive Risikobewertung und Priorisierung von Folgeuntersuchungen ermöglichen.

Jowaria Khan, Alexa Friedman, Sydney Evans + 6 more2026-02-19🤖 cs.LG

Filter2Noise: A Framework for Interpretable and Zero-Shot Low-Dose CT Image Denoising

Das Paper stellt Filter2Noise (F2N) vor, ein interpretierbares und datenfreies Selbstüberwachungs-Framework für die Rauschunterdrückung bei Niedrigdosis-CT, das mithilfe eines transparenten, aufmerksamkeitsgesteuerten Bilateral-Filters und eines effizienten Multi-Scale-Loss-Ansatzes ohne gepaarte Trainingsdaten state-of-the-art Ergebnisse erzielt und dabei klinisches Vertrauen sowie Benutzerkontrolle gewährleistet.

Yipeng Sun, Linda-Sophie Schneider, Siyuan Mei + 8 more2026-02-19⚡ eess

CARL: Camera-Agnostic Representation Learning for Spectral Image Analysis

Das Paper stellt CARL vor, ein kameraneutrales Modell für das Repräsentationslernen, das mithilfe eines neuartigen spektralen Encoders mit Selbst- und Kreuz-Aufmerksamkeit sowie einer selbstüberwachten Vortrainingsstrategie die Generalisierbarkeit von KI-Methoden über verschiedene Spektralbildgebungsmodalitäten hinweg ermöglicht und so eine robuste Grundlage für zukünftige spektrale Fundamentmodelle schafft.

Alexander Baumann, Leonardo Ayala, Silvia Seidlitz + 5 more2026-02-19🤖 cs.LG

Attention, Please! Revisiting Attentive Probing Through the Lens of Efficiency

Die Arbeit stellt „Efficient Probing" (EP) vor, einen leichten und parametereffizienten Multi-Query-Cross-Attention-Mechanismus, der durch die Eliminierung redundanter Projektionen bestehende aufmerksame Probing-Methoden in Bezug auf Genauigkeit und Effizienz übertrifft und neue Einblicke in die Nutzung von Probing jenseits reiner Evaluierung ermöglicht.

Bill Psomas, Dionysis Christopoulos, Eirini Baltzi + 6 more2026-02-19💻 cs

Label-Consistent Dataset Distillation with Detector-Guided Refinement

Die vorgestellte Arbeit stellt einen detector-gesteuerten Rahmen für das Dataset Distillation vor, der mithilfe eines vortrainierten Detektors inkonsistente synthetische Bilder identifiziert und durch eine selektive Generierung mit Diffusionsmodellen korrigiert, um sowohl die Label-Konsistenz als auch die Bildqualität zu verbessern und damit den aktuellen Stand der Technik zu übertreffen.

Yawen Zou, Guang Li, Zi Wang + 2 more2026-02-19💻 cs

MedReasoner: Reinforcement Learning Drives Reasoning Grounding from Clinical Thought to Pixel-Level Precision

Die Arbeit stellt MedReasoner vor, ein Framework, das durch Reinforcement Learning klinisches Denken mit pixelgenauer Bildsegmentierung verbindet, und stellt dabei den neuen Datensatz U-MRG-14K sowie die Aufgabe Unified Medical Reasoning Grounding (UMRG) vor, um implizite klinische Abfragen in der medizinischen Bildgebung präzise zu beantworten.

Zhonghao Yan, Muxi Diao, Yuxuan Yang + 7 more2026-02-19🤖 cs.AI

COGITAO: A Visual Reasoning Framework To Study Compositionality & Generalization

Das Paper stellt COGITAO vor, ein offenes, modulares Framework zur Generierung von Millionen einzigartiger visueller Aufgaben, das systematisch die Untersuchung von Kompositionalität und Generalisierung ermöglicht und dabei die anhaltenden Defizite moderner Vision-Modelle bei der Anwendung erlernter Konzepte in neuen Kombinationen aufzeigt.

Yassine Taoudi-Benchekroun, Klim Troyan, Pascal Sager + 3 more2026-02-19🤖 cs.AI

Language-Guided Invariance Probing of Vision-Language Models

Die Arbeit stellt mit LGIP einen neuen Benchmark vor, der die linguistische Robustheit von Vision-Language-Modellen durch Messung ihrer Invarianz gegenüber bedeutungserhaltenden Umschreibungen und ihrer Sensitivität gegenüber semantischen Veränderungen bewertet und dabei zeigt, dass einige Modelle wie SigLIP gegenüber menschlichen Beschreibungen fehleranfälliger sind als gegenüber manipulierten Texten, was von herkömmlichen Metriken oft übersehen wird.

Jae Joong Lee2026-02-19🤖 cs.AI