cs.CV Arbeiten | Gist.Science

Rotterdam artery-vein segmentation (RAV) dataset

Das Rotterdam-Arterien-Venen-Segmentierungs- (RAV-) Dataset bietet eine vielfältige Sammlung von Farbfundusbildern mit hochwertigen, durch Konnektivitätsprüfung validierten Segmentierungsmasken, um die Entwicklung robuster maschineller Lernmodelle für die retinale Gefäßanalyse unter realen Bedingungen zu unterstützen.

Jose Vargas Quiros, Bart Liefers, Karin van Garderen + 3 more2026-02-19⚡ eess

Scalable Residual Feature Aggregation Framework with Hybrid Metaheuristic Optimization for Robust Early Pancreatic Neoplasm Detection in Multimodal CT Imaging

Diese Studie stellt ein skalierbares Framework zur robusten Früherkennung von Pankreastumoren in multimodalen CT-Bildern vor, das durch die Kombination von MAGRes-UNet, DenseNet-121, einem hybriden ViT-EfficientNet-B3-Klassifikator und metaheuristischen Optimierungsverfahren eine Genauigkeit von 96,23 % erreicht.

Janani Annur Thiruvengadam, Kiran Mayee Nabigaru, Anusha Kovi2026-02-19💻 cs

GEPC: Group-Equivariant Posterior Consistency for Out-of-Distribution Detection in Diffusion Models

Die Arbeit stellt GEPC vor, eine training-freie Methode zur Erkennung von Out-of-Distribution-Daten in Diffusionsmodellen, die die Inkonsistenz der gelernten Score-Felder unter Gruppen-Transformationen nutzt, um eine robuste und interpretierbare Anomalieerkennung zu ermöglichen.

Yadang Alexis Rouzoumka, Jean Pinsolle, Eugénie Terreaux + 3 more2026-02-19🤖 cs.LG

Zero-Shot UAV Navigation in Forests via Relightable 3D Gaussian Splatting

Diese Arbeit stellt einen end-to-end Reinforcement-Learning-Ansatz vor, der mittels relightable 3D Gaussian Splatting in einer realitätsnahen Simulation trainiert wird, um Drohnen eine robuste, zero-shot Navigation in unstrukturierten Wäldern unter stark variierenden Lichtbedingungen zu ermöglichen.

Zinan Lv, Yeqian Qian, Chen Sang + 3 more2026-02-19💻 cs

Visualizing the Invisible: Enhancing Radiologist Performance in Breast Mammography via Task-Driven Chromatic Encoding

Die Studie stellt MammoColor vor, ein Framework mit einem aufgabenorientierten chromatischen Kodierungsmodul, das die Lesegenauigkeit von Radiologen bei der Brustkrebsfrüherkennung, insbesondere bei dichtem Brustgewebe, durch visuelle Hervorhebung relevanter Merkmale verbessert und gleichzeitig die Anzahl der falsch-positiven Befunde reduziert.

Hui Ye, Shilong Yang, Chulong Zhang + 4 more2026-02-19💻 cs

Vision and Language: Novel Representations and Artificial intelligence for Driving Scene Safety Assessment and Autonomous Vehicle Planning

Diese Arbeit untersucht die Integration von Vision-Language-Modellen in autonome Fahrsysteme und zeigt, dass diese zwar vielversprechend für die semantische Risikobewertung und die Formulierung von Verhaltensbeschränkungen sind, ihre erfolgreiche Anwendung jedoch eine sorgfältige, aufgabenspezifische Systemgestaltung erfordert, anstatt einfache Merkmalseinfügung.

Ross Greer, Maitrayee Keskar, Angel Martinez-Sanchez + 3 more2026-02-19🤖 cs.AI

ToaSt: Token Channel Selection and Structured Pruning for Efficient ViT

ToaSt ist ein entkoppelter Framework, der durch eine gekoppelte headweise strukturierte Pruning für Multi-Head-Self-Attention und eine Token-Kanal-Auswahl für Feed-Forward-Netze die Effizienz von Vision-Transformern signifikant steigert, ohne dabei die Genauigkeit zu beeinträchtigen.

Hyunchan Moon, Cheonjun Park, Steven L. Waslander2026-02-19💻 cs

ReasonNavi: Human-Inspired Global Map Reasoning for Zero-Shot Embodied Navigation

Der Artikel stellt ReasonNavi vor, ein menscheninspiriertes Framework für die zero-shot Navigation, das Multimodal Large Language Models mit deterministischen Planern koppelt, um globale Karten zu nutzen und so effiziente, trainingsfreie Pfadplanung zu ermöglichen.

Yuzhuo Ao, Anbang Wang, Yu-Wing Tai + 1 more2026-02-19💻 cs

Egocentric Bias in Vision-Language Models

Die Studie stellt mit FlipSet einen diagnostischen Benchmark vor, der zeigt, dass Vision-Language-Modelle trotz isolierter Fähigkeiten bei mentaler Rotation und Theory of Mind systematisch an einer egozentrischen Verzerrung leiden, wenn sie soziale Perspektiven mit räumlichen Transformationen kombinieren müssen.

Maijunxian Wang, Yijiang Li, Bingyang Wang + 6 more2026-02-19🤖 cs.AI

Adaptive Illumination Control for Robot Perception

Das Paper stellt „Lightning" vor, ein geschlossenes Regelungsframework für die robotische Wahrnehmung, das durch die Kombination von physikalisch konsistenter Relighting-Synthese, offline-Optimierung und Imitationslernen eine adaptive Beleuchtungssteuerung ermöglicht, die die Robustheit von visuellem SLAM unter schwierigen Lichtverhältnissen verbessert und gleichzeitig den Energieverbrauch optimiert.

Yash Turkar, Shekoufeh Sadeghi, Karthik Dantu2026-02-19💻 cs

Detecting Deepfakes with Multivariate Soft Blending and CLIP-based Image-Text Alignment

Die Arbeit stellt einen neuartigen Deepfake-Erkennungsansatz namens MSBA-CLIP vor, der durch die Kombination von multivariater weicher Bildmischung und CLIP-gesteuerter Intensitätsschätzung die Generalisierungsfähigkeit und Genauigkeit bestehender Methoden überwindet.

Jingwei Li, Jiaxin Tong, Pengfei Wu2026-02-19💻 cs

A Comprehensive Survey on Deep Learning-Based LiDAR Super-Resolution for Autonomous Driving

Diese Arbeit bietet die erste umfassende Übersicht über Deep-Learning-Methoden zur LiDAR-Super-Resolution im autonomen Fahren, indem sie bestehende Ansätze kategorisiert, grundlegende Konzepte definiert und aktuelle Trends sowie zukünftige Herausforderungen für den praktischen Einsatz analysiert.

June Moh Goo, Zichao Zeng, Jan Boehm2026-02-19💻 cs

Foundation Models for Medical Imaging: Status, Challenges, and Directions

Diese Übersichtsarbeit beleuchtet den aktuellen Stand, die Herausforderungen und zukünftigen Richtungen von Foundation-Modellen in der medizinischen Bildgebung und bietet einen fundierten Fahrplan für deren verantwortungsvolle klinische Anwendung.

Chuang Niu, Pengwei Wu, Bruno De Man + 1 more2026-02-19⚡ eess

MaS-VQA: A Mask-and-Select Framework for Knowledge-Based Visual Question Answering

Das Paper stellt MaS-VQA vor, ein Framework für wissensbasiertes visuelles Fragenbeantworten, das durch einen „Mask-and-Select"-Mechanismus irrelevante Bildbereiche und schwache Wissensfragmente filtert, um explizites und implizites Wissen effektiv zu kombinieren und so die Antwortgenauigkeit zu steigern.

Xianwei Mao, Kai Ye, Sheng Zhou + 4 more2026-02-19🤖 cs.AI

ROIX-Comp: Optimizing X-ray Computed Tomography Imaging Strategy for Data Reduction and Reconstruction

Die Arbeit stellt ROIX-Comp vor, ein Framework zur intelligenten Komprimierung von Röntgen-CT-Daten durch ROI-basierte Extraktion und fehlerbegrenzte Quantisierung, das die Datenmenge erheblich reduziert und die Kompressionsrate im Vergleich zu Standardverfahren um das 12,34-fache verbessert.

Amarjit Singh, Kento Sato, Kohei Yoshida + 4 more2026-02-19⚡ eess

EarthSpatialBench: Benchmarking Spatial Reasoning Capabilities of Multimodal LLMs on Earth Imagery

Die Autoren stellen mit EarthSpatialBench einen umfassenden Benchmark vor, der über 325.000 Frage-Antwort-Paare enthält, um die räumlichen Schlussfolgerungsfähigkeiten multimodaler Sprachmodelle bei der Analyse von Erdbeobachtungsdaten hinsichtlich quantitativer Distanzen, Richtungen, topologischer Beziehungen und komplexer Geometrien zu evaluieren.

Zelin Xu, Yupu Zhang, Saugat Adhikari + 6 more2026-02-19🤖 cs.AI

World Action Models are Zero-shot Policies

Das Paper stellt DreamZero vor, ein World Action Model auf Basis eines Video-Diffusions-Backbones, das als Zero-Shot-Policy durch das gemeinsame Lernen von Video und Aktionen eine überlegene Generalisierungsfähigkeit auf neue Aufgaben und Umgebungen sowie eine effiziente Echtzeit-Steuerung und Embodiment-Transferfähigkeit im Vergleich zu herkömmlichen Vision-Language-Action-Modellen erreicht.

Seonghyeon Ye, Yunhao Ge, Kaiyuan Zheng + 33 more2026-02-19🤖 cs.LG

A Study on Real-time Object Detection using Deep Learning

Diese Arbeit untersucht den Einsatz von Deep-Learning-Algorithmen zur Echtzeit-Objekterkennung, stellt verschiedene Modelle und Datensätze vor, vergleicht deren Leistung in kontrollierten Studien und diskutiert Anwendungsbereiche sowie zukünftige Herausforderungen.

Ankita Bose, Jayasravani Bhumireddy, Naveen N2026-02-19🤖 cs.LG

Visual Memory Injection Attacks for Multi-Turn Conversations

Diese Arbeit stellt einen neuen, schleichenden „Visual Memory Injection"-Angriff vor, der es ermöglicht, manipulierte Bilder so zu gestalten, dass große multimodale Sprachmodelle in langanhaltenden Dialogen bei spezifischen Auslösern unerwünschte Botschaften ausgeben, wodurch die Sicherheitslücken aktueller Modelle in Multi-Turn-Szenarien aufgezeigt werden.

Christian Schlarmann, Matthias Hein2026-02-19🤖 cs.LG

DocSplit: A Comprehensive Benchmark Dataset and Evaluation Approach for Document Packet Recognition and Splitting

Die Arbeit stellt DocSplit vor, den ersten umfassenden Benchmark-Datensatz mit neuen Evaluierungsmetriken, um die Fähigkeit von multimodalen Large Language Models zu testen, heterogene Dokumentenpakete in einzelne Einheiten zu zerlegen, was für zahlreiche branchenspezifische Anwendungen entscheidend ist.

Md Mofijul Islam, Md Sirajus Salekin, Nivedha Balakrishnan + 6 more2026-02-19💬 cs.CL

← Zurück Weiter →