cs.CV Arbeiten | Gist.Science

RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics

Das Paper stellt RoboSpatial vor, einen groß angelegten Datensatz mit 1 Million Bildern, 5.000 3D-Scans und 3 Millionen annotierten räumlichen Beziehungen, der entwickelt wurde, um räumliches Verständnis in 2D- und 3D-Vision-Language-Modellen für die Robotik zu verbessern und deren Leistung in Aufgaben wie Manipulation und räumlicher Vorhersage signifikant zu steigern.

Chan Hee Song, Valts Blukis, Jonathan Tremblay + 3 more2026-02-19💬 cs.CL

LMSeg: Unleashing the Power of Large-Scale Models for Open-Vocabulary Semantic Segmentation

Die Arbeit stellt LMSeg vor, eine Methode zur offenen Vokabular-Semantiksegmentation, die durch die Generierung bereicherter Sprachprompts mittels großer Sprachmodelle (LLMs) und die Fusion von CLIP- und SAM-Visualsemantiken mittels einer lernbaren gewichteten Strategie die Leistungsfähigkeit bestehender Ansätze auf Benchmark-Datensätzen signifikant verbessert.

Huadong Tang, Youpeng Zhao, Yan Huang + 3 more2026-02-19🤖 cs.LG

PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models

Die Arbeit stellt PromptGuard vor, eine neue Methode zur Moderation von Text-zu-Bild-Modellen, die durch Optimierung eines universellen „Soft Prompt" im Embedding-Raum NSFW-Inhalte effektiv blockiert und dabei die Bildqualität erhält sowie eine deutlich höhere Geschwindigkeit als bestehende Sicherheitsansätze erreicht.

Lingzhi Yuan, Xinfeng Li, Chejian Xu + 7 more2026-02-19🤖 cs.AI

Frequency-Aware Vision Transformers for High-Fidelity Super-Resolution of Earth System Models

Die Studie stellt die frequenzbewussten Frameworks ViSIR und ViFOR vor, die durch die Kombination von Vision Transformern mit sinusförmigen Aktivierungen bzw. expliziten Fourier-Filtern die spektrale Verzerrung herkömmlicher Deep-Learning-Methoden überwinden und so die hochauflösende Rekonstruktion von Erdystemmodellen signifikant verbessern.

Ehsan Zeraatkar, Salah A Faroughi, Jelena Tešić2026-02-19💻 cs

FOCUS on Contamination: Hydrology-Informed Noise-Aware Learning for Geospatial PFAS Mapping

Das Paper stellt FOCUS vor, ein geospatiales Deep-Learning-Framework, das spärliche PFAS-Messdaten mit hydrologischen und umweltbezogenen Kontextinformationen kombiniert, um robuste und skalierbare Kontaminationskarten zu erstellen, die trotz fehlender vollständiger physikalischer Modelle eine effektive Risikobewertung und Priorisierung von Folgeuntersuchungen ermöglichen.

Jowaria Khan, Alexa Friedman, Sydney Evans + 6 more2026-02-19🤖 cs.LG

A Survey: Spatiotemporal Consistency in Video Generation

Diese Arbeit bietet eine systematische Übersicht über den aktuellen Stand der Forschung zur räumlich-zeitlichen Konsistenz in der Videogenerierung, indem sie verschiedene Aspekte wie Modelle, Trainingsstrategien und Evaluierungsmetriken analysiert und zukünftige Forschungsrichtungen aufzeigt.

Zhiyu Yin, Kehai Chen, Xuefeng Bai + 7 more2026-02-19🤖 cs.AI

Demand Estimation with Text and Image Data

Diese Studie stellt eine Methode zur Nachfrageabschätzung vor, die unstrukturierte Text- und Bilddaten mittels Deep-Learning-Embeddings in ein gemischtes Logit-Modell integriert, um Substitutionsmuster auch bei fehlenden oder schwer quantifizierbaren Produktmerkmalen präziser zu erfassen als herkömmliche Ansätze.

Giovanni Compiani, Ilya Morozov, Stephan Seiler2026-02-19💰 q-fin

Filter2Noise: A Framework for Interpretable and Zero-Shot Low-Dose CT Image Denoising

Das Paper stellt Filter2Noise (F2N) vor, ein interpretierbares und datenfreies Selbstüberwachungs-Framework für die Rauschunterdrückung bei Niedrigdosis-CT, das mithilfe eines transparenten, aufmerksamkeitsgesteuerten Bilateral-Filters und eines effizienten Multi-Scale-Loss-Ansatzes ohne gepaarte Trainingsdaten state-of-the-art Ergebnisse erzielt und dabei klinisches Vertrauen sowie Benutzerkontrolle gewährleistet.

Yipeng Sun, Linda-Sophie Schneider, Siyuan Mei + 8 more2026-02-19⚡ eess

CARL: Camera-Agnostic Representation Learning for Spectral Image Analysis

Das Paper stellt CARL vor, ein kameraneutrales Modell für das Repräsentationslernen, das mithilfe eines neuartigen spektralen Encoders mit Selbst- und Kreuz-Aufmerksamkeit sowie einer selbstüberwachten Vortrainingsstrategie die Generalisierbarkeit von KI-Methoden über verschiedene Spektralbildgebungsmodalitäten hinweg ermöglicht und so eine robuste Grundlage für zukünftige spektrale Fundamentmodelle schafft.

Alexander Baumann, Leonardo Ayala, Silvia Seidlitz + 5 more2026-02-19🤖 cs.LG

Attention, Please! Revisiting Attentive Probing Through the Lens of Efficiency

Die Arbeit stellt „Efficient Probing" (EP) vor, einen leichten und parametereffizienten Multi-Query-Cross-Attention-Mechanismus, der durch die Eliminierung redundanter Projektionen bestehende aufmerksame Probing-Methoden in Bezug auf Genauigkeit und Effizienz übertrifft und neue Einblicke in die Nutzung von Probing jenseits reiner Evaluierung ermöglicht.

Bill Psomas, Dionysis Christopoulos, Eirini Baltzi + 6 more2026-02-19💻 cs

Label-Consistent Dataset Distillation with Detector-Guided Refinement

Die vorgestellte Arbeit stellt einen detector-gesteuerten Rahmen für das Dataset Distillation vor, der mithilfe eines vortrainierten Detektors inkonsistente synthetische Bilder identifiziert und durch eine selektive Generierung mit Diffusionsmodellen korrigiert, um sowohl die Label-Konsistenz als auch die Bildqualität zu verbessern und damit den aktuellen Stand der Technik zu übertreffen.

Yawen Zou, Guang Li, Zi Wang + 2 more2026-02-19💻 cs

MedVLThinker: Simple Baselines for Multimodal Medical Reasoning

Die Arbeit stellt MedVLThinker vor, eine vollständig offene Methodik, die durch Reinforcement Learning mit verifizierbaren Belohnungen und eine überraschende Fokussierung auf rein textbasierte Trainingsdaten neue State-of-the-Art-Ergebnisse für multimodale medizinische Fragestellungen bei Open-Source-Modellen erzielt.

Xiaoke Huang, Juncheng Wu, Hui Liu + 2 more2026-02-19💻 cs

Robust Image Stitching with Optimal Plane

Die Arbeit stellt \textit{RopStitch} vor, ein unüberwachtes Deep-Learning-Framework für die Bildmontage, das durch eine Dual-Branch-Architektur und die Einführung virtueller optimaler Ebenen sowohl Robustheit in verschiedenen Szenarien als auch eine natürliche Bildwiedergabe gewährleistet.

Lang Nie, Yuan Mei, Kang Liao + 3 more2026-02-19💻 cs

MedReasoner: Reinforcement Learning Drives Reasoning Grounding from Clinical Thought to Pixel-Level Precision

Die Arbeit stellt MedReasoner vor, ein Framework, das durch Reinforcement Learning klinisches Denken mit pixelgenauer Bildsegmentierung verbindet, und stellt dabei den neuen Datensatz U-MRG-14K sowie die Aufgabe Unified Medical Reasoning Grounding (UMRG) vor, um implizite klinische Abfragen in der medizinischen Bildgebung präzise zu beantworten.

Zhonghao Yan, Muxi Diao, Yuxuan Yang + 7 more2026-02-19🤖 cs.AI

COGITAO: A Visual Reasoning Framework To Study Compositionality & Generalization

Das Paper stellt COGITAO vor, ein offenes, modulares Framework zur Generierung von Millionen einzigartiger visueller Aufgaben, das systematisch die Untersuchung von Kompositionalität und Generalisierung ermöglicht und dabei die anhaltenden Defizite moderner Vision-Modelle bei der Anwendung erlernter Konzepte in neuen Kombinationen aufzeigt.

Yassine Taoudi-Benchekroun, Klim Troyan, Pascal Sager + 3 more2026-02-19🤖 cs.AI

Melanoma Classification Through Deep Ensemble Learning and Explainable AI

Diese Arbeit schlägt ein zuverlässiges Ensemble-Modell aus drei Deep-Learning-Netzwerken zur Klassifizierung von Melanomen vor, das durch Explainable-AI-Techniken die Nachvollziehbarkeit und Vertrauenswürdigkeit der Vorhersagen sicherstellt.

Wadduwage Shanika Perera, ABM Islam, Van Vung Pham + 1 more2026-02-19🤖 cs.LG

Fusionista2.0: Efficiency Retrieval System for Large-Scale Datasets

Fusionista2.0 ist ein für den Video Browser Showdown optimiertes, effizientes Video-Rückgewinnungssystem, das durch den Einsatz beschleunigter Technologien wie ffmpeg, Vintern-1B-v3.5 und faster-whisper sowie eine neu gestaltete Benutzeroberfläche die Suchzeit um bis zu 75 % reduziert und gleichzeitig die Genauigkeit sowie die Benutzerzufriedenheit steigert.

Huy M. Le, Dat Tien Nguyen, Phuc Binh Nguyen + 8 more2026-02-19💻 cs

Language-Guided Invariance Probing of Vision-Language Models

Die Arbeit stellt mit LGIP einen neuen Benchmark vor, der die linguistische Robustheit von Vision-Language-Modellen durch Messung ihrer Invarianz gegenüber bedeutungserhaltenden Umschreibungen und ihrer Sensitivität gegenüber semantischen Veränderungen bewertet und dabei zeigt, dass einige Modelle wie SigLIP gegenüber menschlichen Beschreibungen fehleranfälliger sind als gegenüber manipulierten Texten, was von herkömmlichen Metriken oft übersehen wird.

Jae Joong Lee2026-02-19🤖 cs.AI

Trustworthy and Fair SkinGPT-R1 for Democratizing Dermatological Reasoning across Diverse Ethnicities

Die Studie stellt SkinGPT-R1 vor, ein multimodales KI-Modell, das durch eine faire Mixture-of-Experts-Architektur und Chain-of-Thought-Verfahren eine vertrauenswürdige, erklärbare und ethnisch ausgewogene dermatologische Diagnose unterstützt.

Yuhao Shen, Zhangtianyi Chen, Yuanhao He + 14 more2026-02-19💻 cs

PartUV: Part-Based UV Unwrapping of 3D Meshes

Das Paper stellt PartUV vor, eine partbasierte UV-Entfaltungspipeline, die durch die Kombination von semantischer Teilzerlegung und geometrischen Heuristiken für 3D-Meshes deutlich weniger und weniger verzerrte Charts erzeugt als bestehende Methoden, insbesondere bei schwierigen, KI-generierten Modellen.

Zhaoning Wang, Xinyue Wei, Ruoxi Shi + 3 more2026-02-19💻 cs

← Zurück Weiter →