cs.CV Arbeiten | Gist.Science

An Industrial Dataset for Scene Acquisitions and Functional Schematics Alignment

Dieses Paper stellt den umfassenden Datensatz IRIS-v2 vor, der Bilder, Punktwolken und P&ID-Diagramme für die industrielle Szene enthält, um die manuelle und zeitaufwändige Ausrichtung von funktionalen Schemata mit 2D/3D-Erfassungen durch Kombination von Segmentierung und Graph-Matching zu automatisieren.

Flavien Armangeon, Thibaud Ehret, Enric Meinhardt-Llopis + 4 more2026-02-18💻 cs

CARE Drive A Framework for Evaluating Reason-Responsiveness of Vision Language Models in Automated Driving

Die Studie stellt CARE Drive vor, ein modellunabhängiges Framework zur systematischen Evaluierung der Reaktionsfähigkeit von Vision-Language-Modellen auf menschliche Entscheidungsgründe im automatisierten Fahren, indem kontextuelle Variationen genutzt werden, um zu prüfen, ob Erklärungen echte kausale Einflussfaktoren oder nur nachträgliche Rationalisierungen darstellen.

Lucas Elbert Suryana, Farah Bierenga, Sanne van Buuren + 6 more2026-02-18🤖 cs.AI

Guided Diffusion by Optimized Loss Functions on Relaxed Parameters for Inverse Material Design

Die vorgestellte Arbeit entwickelt eine Methode zur inversen Materialgestaltung, die Diffusionsmodelle auf einem relaxierten, kontinuierlichen Parameterraum nutzt, um durch geführte Diffusion und differentiable Simulation vielfältige und präzise Designs für Verbundwerkstoffe mit vorgegebenen mechanischen Eigenschaften zu generieren.

Jens U. Kreber, Christian Weißenfels, Joerg Stueckler2026-02-18🤖 cs.LG

Concept-Enhanced Multimodal RAG: Towards Interpretable and Accurate Radiology Report Generation

Die vorgestellte Arbeit führt CEMRAG ein, ein einheitliches Framework, das visuelle klinische Konzepte mit multimodaler Retrieval-Augmented Generation (RAG) kombiniert, um sowohl die Interpretierbarkeit als auch die faktische Genauigkeit bei der automatisierten Generierung radiologischer Berichte zu verbessern und dabei das angenommene Zielkonflikt zwischen Transparenz und Leistung aufzulösen.

Marco Salmè, Federico Siciliano, Fabrizio Silvestri + 3 more2026-02-18💻 cs

Bayesian Optimization for Design Parameters of 3D Image Data Analysis

Die Autoren stellen eine 3D-Datenanalyse-Optimierungspipeline vor, die mittels zweier Bayesscher Optimierungsstufen die Auswahl und Parametrisierung von Segmentierungs- und Klassifizierungsmodellen für biomedizinische 3D-Bilder automatisiert und dabei den manuellen Annotationsaufwand durch einen assistierten Workflow reduziert.

David Exler, Joaquin Eduardo Urrutia Gómez, Martin Krüger + 5 more2026-02-18🤖 cs.AI

Criteria-first, semantics-later: reproducible structure discovery in image-based sciences

Der Artikel schlägt einen Paradigmenwechsel in der bildbasierten Wissenschaft vor, bei dem die semantikfreie, kriterienbasierte Strukturerkennung der semantischen Zuordnung vorgeschaltet wird, um reproduzierbare und ontologieunabhängige Analysen zu ermöglichen.

Jan Bumberger2026-02-18🤖 cs.AI

Learning to Retrieve Navigable Candidates for Efficient Vision-and-Language Navigation

Die vorgestellte Arbeit schlägt einen retrieval-basierten Rahmen vor, der durch die Kombination von instruktionsbasierten Trajektorien-Beispielen und der Vorauswahl relevanter Navigationskandidaten die Effizienz und Stabilität von LLM-basiertem Vision-and-Language Navigation verbessert, ohne das zugrunde liegende Sprachmodell zu modifizieren.

Shutian Gu, Chengkai Huang, Ruoyu Wang + 1 more2026-02-18🤖 cs.AI

Spanning the Visual Analogy Space with a Weight Basis of LoRAs

Die Arbeit stellt LoRWeB vor, eine Methode, die das Problem der Verallgemeinerung bei visuellen Analogien löst, indem sie durch einen leichten Encoder eine dynamische Kombination aus einer lernbaren Basis von LoRA-Modulen verwendet, um komplexe Bildtransformationen ohne Textbeschreibung zu generieren.

Hila Manor, Rinon Gal, Haggai Maron + 2 more2026-02-18⚡ eess

Language and Geometry Grounded Sparse Voxel Representations for Holistic Scene Understanding

Diese Arbeit stellt eine neuartige Methode vor, die auf sprach- und geometrie-verankerten, spärlichen Voxel-Repräsentationen basiert, um Erscheinungsbild, Semantik und Geometrie in einem einheitlichen Rahmen synergistisch zu modellieren und so den aktuellen Stand der Technik bei der ganzheitlichen Szenenverständnis und -rekonstruktion zu übertreffen.

Guile Wu, David Huang, Bingbing Liu + 1 more2026-02-18💻 cs

RaCo: Ranking and Covariance for Practical Learned Keypoints

Die Arbeit stellt RaCo vor, ein leichtgewichtiges neuronales Netzwerk, das ohne kovisibles Bildpaar robust und wiederholbare 3D-Keypoints mit integrierter Rangfolge und Kovarianzschätzung für verschiedene Computer-Vision-Aufgaben lernt.

Abhiram Shenoi, Philipp Lindenberger, Paul-Edouard Sarlin + 1 more2026-02-18💻 cs

NeRFscopy: Neural Radiance Fields for in-vivo Time-Varying Tissues from Endoscopy

Der Artikel stellt NeRFscopy vor, ein selbstüberwachtes Verfahren, das mithilfe von Neural Radiance Fields aus monokularen Endoskopievideos eine präzise 3D-Rekonstruktion und neue Sichtweisen von sich verformenden, zeitlich variierenden Geweben ermöglicht.

Laura Salort-Benejam, Antonio Agudo2026-02-18💻 cs

Meteorological data and Sky Images meets Neural Models for Photovoltaic Power Forecasting

Diese Studie entwickelt einen hybriden multimodalen Ansatz, der Himmelsbilder mit meteorologischen Daten und neuronalen Modellen kombiniert, um die Genauigkeit der Photovoltaik-Leistungsprognose, insbesondere bei Wolken und für Rampenereignisse, zu verbessern und so das Netzmanagement zu optimieren.

Ines Montoya-Espinagosa, Antonio Agudo2026-02-18💻 cs

Context-aware Skin Cancer Epithelial Cell Classification with Scalable Graph Transformers

Die Studie stellt eine skalierbare Graph-Transformer-Methode vor, die im Vergleich zu bildbasierten Modellen durch die Nutzung des gesamten zellulären Kontexts in Ganzzahldiagrammen (Whole-Slide-Images) eine überlegene Genauigkeit bei der Unterscheidung von gesunden und tumorösen Epithelzellen beim kutanen Plattenepithelkarzinom erreicht.

Lucas Sancéré, Noémie Moreau, Katarzyna Bozek2026-02-18💻 cs

Task-Agnostic Continual Learning for Chest Radiograph Classification

Die Studie stellt CARL-XRay vor, einen neuen Ansatz für das kontinuierliche Lernen bei der Klassifizierung von Thorax-Röntgenbildern, der durch den Einsatz von task-spezifischen Adaptern und einem latenten Task-Selektor eine stabile Anpassung an sequenziell eintreffende Datensätze ohne vollständiges Neulernen oder Speicherung roher Bilddaten ermöglicht.

Muthu Subash Kavitha, Anas Zafar, Amgad Muneer + 1 more2026-02-18🤖 cs.AI

VideoSketcher: Video Models Prior Enable Versatile Sequential Sketch Generation

Das Paper stellt VideoSketcher vor, eine dateneffiziente Methode, die vortrainierte Text-zu-Video-Diffusionsmodelle mit Sprachmodellen kombiniert, um hochwertige sequenzielle Skizzen zu generieren, die sowohl textbasierten Anweisungen zur Strichreihenfolge folgen als auch visuelle Details durch eine zweistufige Feinabstimmung mit nur wenigen manuellen Beispielen erlernen.

Hui Ren, Yuval Alaluf, Omer Bar Tal + 3 more2026-02-18💻 cs

Dex4D: Task-Agnostic Point Track Policy for Sim-to-Real Dexterous Manipulation

Das Paper stellt Dex4D vor, ein Sim-to-Real-Framework, das eine aufgabenunabhängige 3D-Punktverfolgungs-Policy lernt, um diverse dexteröse Manipulationsaufgaben durch zero-shot-Übertragung und Online-Feedback ohne Nachjustierung zu lösen.

Yuxuan Kuang, Sungjae Park, Katerina Fragkiadaki + 1 more2026-02-18🤖 cs.LG

LightX3ECG: A Lightweight and eXplainable Deep Learning System for 3-lead Electrocardiogram Classification

Die Studie stellt LightX3ECG vor, ein leichtgewichtiges und erklärbares Deep-Learning-System, das zur genauen Erkennung verschiedener Herz-Kreislauf-Erkrankungen ausschließlich drei EKG-Ableitungen nutzt, um die Diagnose durch tragbare Geräte zugänglicher zu machen.

Khiem H. Le, Hieu H. Pham, Thao BT. Nguyen + 3 more2026-02-17🤖 cs.AI

Realtime Data-Efficient Portrait Stylization Based On Geometric Alignment

Diese Arbeit stellt eine dateneffiziente Methode zur Porträtstilisierung vor, die durch die Integration differenzierbarer Thin-Plate-Spline-Module in ein GAN-Framework geometrische Konsistenz sicherstellt und somit Echtzeit-Inferenz auf mobilen Geräten bei deutlich reduzierter Rechenkomplexität ermöglicht.

Xinrui Wang, Zhuoru Li, Xiao Zhou + 2 more2026-02-17💻 cs

TKN: Transformer-based Keypoint Prediction Network For Real-time Video Prediction

Die vorgestellte Transformer-basierte Keypoint-Vorhersagenetzwerk (TKN) ermöglicht eine Echtzeit-Videovorhersage mit einer Geschwindigkeit von 1.176 Bildern pro Sekunde, indem sie durch unsuperviertes Lernen, eine Beschleunigungsmatrix und parallele Berechnung die Rechenkosten senkt und gleichzeitig die Genauigkeit erhält.

Haoran Li, XiaoLu Li, Yihang Lin + 4 more2026-02-17🤖 cs.AI

A Survey on Generative Modeling with Limited Data, Few Shots, and Zero Shot

Diese Übersichtsarbeit bietet eine umfassende Analyse und eine neue Taxonomie für generative Modelle unter Datenbeschränkungen (GM-DC), indem sie über 230 Studien zu Herausforderungen wie Überanpassung und inkompatibler Wissensübertragung sowie zu Lösungsansätzen wie Transferlernen und Daten-Augmentierung zusammenfasst und einen praktischen Fahrplan für zukünftige Forschung in diesem Bereich liefert.

Milad Abdollahzadeh, Guimeng Liu, Touba Malekzadeh + 3 more2026-02-17🤖 cs.LG

← Zurück Weiter →