cs.CV Arbeiten | Gist.Science

GMAIL: Generative Modality Alignment for generated Image Learning

Das Paper stellt GMAIL vor, ein neuartiges Framework, das generierte Bilder als eigenständige Modalität behandelt und durch Ausrichtung im latenten Raum deren effektive Nutzung zur Verbesserung verschiedener Vision-Language-Aufgaben ermöglicht.

Shentong Mo, Sukmin Yun2026-02-18⚡ eess

Automatic Funny Scene Extraction from Long-form Cinematic Videos

Diese Arbeit stellt ein End-to-End-System vor, das mithilfe von innovativen Techniken zur Szenensegmentierung, multimodalen Lokalisierung und Humor-Erkennung automatisch humorvolle Szenen aus langen Kinofilmen extrahiert und dabei sowohl die Genauigkeit der Szenenerkennung als auch die Qualität der humorvollen Clips signifikant verbessert.

Sibendu Paul, Haotian Jiang, Caren Chen2026-02-18💻 cs

The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems

Die Arbeit stellt „Vision Wormhole" vor, ein neuartiges Framework, das über einen universellen visuellen Codec und eine Hub-and-Spoke-Architektur die effiziente, textfreie Kommunikation zwischen heterogenen Multi-Agenten-Systemen ermöglicht, indem es reasoning traces direkt in den visuellen Pfad von Vision-Language-Modellen injiziert, um Latenz und Informationsverlust zu reduzieren.

Xiaoze Liu, Ruowang Zhang, Weichen Yu + 7 more2026-02-18💬 cs.CL

Bridging Day and Night: Target-Class Hallucination Suppression in Unpaired Image Translation

Die Autoren stellen einen neuartigen Rahmen vor, der auf einem Schrodinger-Brücken-Modell basiert und durch die Verwendung von dualen Diskriminatoren sowie klassenspezifischen Prototypen Halluzinationen von Zielklassen-Features bei der unpaarigen Bildübersetzung von Tag zu Nacht effektiv erkennt und unterdrückt, was die Leistung nachgelagerter Aufgaben signifikant verbessert.

Shuwei Li, Lei Tan, Robby T. Tan2026-02-18💻 cs

Doubly Stochastic Mean-Shift Clustering

Die vorgestellte Arbeit führt den „Doubly Stochastic Mean-Shift" (DSMS) ein, einen neuartigen Clustering-Algorithmus, der durch die zufällige Variation sowohl der Datenstichproben als auch der Kernel-Bandbreite eine implizite Regularisierung erreicht und damit die Stabilität des Mean-Shift-Verfahrens insbesondere in datenarmen Szenarien signifikant verbessert.

Tom Trigano, Yann Sepulcre, Itshak Lapidot2026-02-18🤖 cs.LG

Efficient Generative Modeling beyond Memoryless Diffusion via Adjoint Schrödinger Bridge Matching

Die Arbeit stellt Adjoint Schrödinger Bridge Matching (ASBM) vor, ein effizientes generatives Modellierungsframework, das durch die Nutzung nicht-gedächtnisloser Prozesse und optimaler Kopplungen geradeere Trajektorien ermöglicht, was zu stabilerem Training, weniger Sampling-Schritten und höherer Bildqualität im Vergleich zu herkömmlichen Diffusionsmodellen führt.

Jeongwoo Shin, Jinhwan Sul, Joonseok Lee + 2 more2026-02-18💻 cs

On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks

Die Studie zeigt, dass Chain-of-Thought-Methoden zwar die In-Distribution-Generalisierung multimodaler LLMs bei einfachen visuellen Planungsaufgaben verbessern, die Out-of-Distribution-Generalisierung jedoch begrenzt bleibt, wobei textbasierte Modelle und hybride Textformate für die Reasoning-Traces die besten Ergebnisse erzielen.

Yannic Neuhaus, Nicolas Flammarion, Matthias Hein + 1 more2026-02-18🤖 cs.LG

Emergent Morphing Attack Detection in Open Multi-modal Large Language Models

Diese Studie zeigt, dass offene multimodale Large Language Models (MLLMs) wie LLaVA1.6-Mistral-7B durch ihre vortrainierten Fähigkeiten morphierte Gesichter in einem Zero-Shot-Setting ohne Feinabstimmung zuverlässig erkennen und dabei spezialisierte, trainierte Baseline-Systeme deutlich übertreffen.

Marija Ivanovska, Vitomir Štruc2026-02-18💻 cs

RPT-SR: Regional Prior attention Transformer for infrared image Super-Resolution

Die Arbeit stellt RPT-SR vor, einen regional priorisierten Transformer, der durch die Fusion von lernbaren Szenen-Gedächtnistokens mit lokalen Bildinformationen die Infrarot-Super-Resolution für statische Überwachungs- und Fahrzeugszenen effizienter gestaltet und dabei sowohl Lang- als auch Kurzwellen-Infrarotdaten auf einen neuen State-of-the-Art-Niveau hebt.

Youngwan Jin, Incheol Park, Yagiz Nalcakan + 3 more2026-02-18🤖 cs.AI

LEADER: Lightweight End-to-End Attention-Gated Dual Autoencoder for Robust Minutiae Extraction

Die Arbeit stellt LEADER vor, einen leichten, vollständig end-to-end arbeitenden neuronalen Dual-Autoencoder mit Aufmerksamkeitsmechanismus, der Roh-Fingerabdruckbilder direkt in robuste Minutien-Deskriptoren umwandelt und dabei sowohl höchste Genauigkeit als auch eine überlegene Recheneffizienz im Vergleich zu bestehenden Methoden erreicht.

Raffaele Cappelli, Matteo Ferrara2026-02-18💻 cs

Semantic-Guided 3D Gaussian Splatting for Transient Object Removal

Die vorgestellte Arbeit schlägt einen semantisch geleiteten Ansatz zur Entfernung transienter Objekte in der 3D-Gaussian-Splatting-Rekonstruktion vor, der mithilfe von Vision-Language-Modellen und CLIP-Ähnlichkeitswerten Parallaxen-Ambiguitäten überwindet und dabei eine hohe Rekonstruktionsqualität bei minimalem Speicherbedarf und Echtzeit-Rendering gewährleistet.

Aditi Prabakaran, Priyesh Shukla2026-02-18💻 cs

Advanced Acceptance Score: A Holistic Measure for Biometric Quantification

Dieses Paper stellt einen neuen ganzheitlichen Bewertungsmaßstab namens „Advanced Acceptance Score" vor, der die Qualität biometrischer Handgesten-Scores durch die Berücksichtigung von Rangordnung, Punktreward, Trendkorrelation und Identitätsentwirrung bewertet und dessen Überlegenheit gegenüber bestehenden Methoden durch umfangreiche Experimente mit fünf State-of-the-Art-Modellen auf drei Datensätzen nachgewiesen wird.

Aman Verma, Seshan Srirangarajan, Sumantra Dutta Roy2026-02-18💻 cs

Dynamic Training-Free Fusion of Subject and Style LoRAs

Die vorgestellte Arbeit schlägt ein dynamisches, trainingsfreies Fusionsframework vor, das durch die adaptive Auswahl von LoRA-Gewichten auf Basis von KL-Divergenz und gradientenbasierte Korrekturen mittels CLIP- und DINO-Scores während des gesamten Diffusionsprozesses eine kohärente Synthese von Subjekt und Stil ohne Nachtraining ermöglicht.

Qinglong Cao, Yuntian Chen, Chao Ma + 1 more2026-02-18🤖 cs.AI

Revealing and Enhancing Core Visual Regions: Harnessing Internal Attention Dynamics for Hallucination Mitigation in LVLMs

Die Arbeit stellt PADE vor, eine trainingsfreie Methode, die durch die Nutzung und adaptive Verstärkung interner positiver Aufmerksamkeitsdynamiken in Large Vision-Language-Modellen Halluzinationen reduziert und die visuelle Verankerung verbessert.

Guangtao Lyu, Qi Liu, Chenghao Xu + 5 more2026-02-18💻 cs

An Industrial Dataset for Scene Acquisitions and Functional Schematics Alignment

Dieses Paper stellt den umfassenden Datensatz IRIS-v2 vor, der Bilder, Punktwolken und P&ID-Diagramme für die industrielle Szene enthält, um die manuelle und zeitaufwändige Ausrichtung von funktionalen Schemata mit 2D/3D-Erfassungen durch Kombination von Segmentierung und Graph-Matching zu automatisieren.

Flavien Armangeon, Thibaud Ehret, Enric Meinhardt-Llopis + 4 more2026-02-18💻 cs

CARE Drive A Framework for Evaluating Reason-Responsiveness of Vision Language Models in Automated Driving

Die Studie stellt CARE Drive vor, ein modellunabhängiges Framework zur systematischen Evaluierung der Reaktionsfähigkeit von Vision-Language-Modellen auf menschliche Entscheidungsgründe im automatisierten Fahren, indem kontextuelle Variationen genutzt werden, um zu prüfen, ob Erklärungen echte kausale Einflussfaktoren oder nur nachträgliche Rationalisierungen darstellen.

Lucas Elbert Suryana, Farah Bierenga, Sanne van Buuren + 6 more2026-02-18🤖 cs.AI

Guided Diffusion by Optimized Loss Functions on Relaxed Parameters for Inverse Material Design

Die vorgestellte Arbeit entwickelt eine Methode zur inversen Materialgestaltung, die Diffusionsmodelle auf einem relaxierten, kontinuierlichen Parameterraum nutzt, um durch geführte Diffusion und differentiable Simulation vielfältige und präzise Designs für Verbundwerkstoffe mit vorgegebenen mechanischen Eigenschaften zu generieren.

Jens U. Kreber, Christian Weißenfels, Joerg Stueckler2026-02-18🤖 cs.LG

Concept-Enhanced Multimodal RAG: Towards Interpretable and Accurate Radiology Report Generation

Die vorgestellte Arbeit führt CEMRAG ein, ein einheitliches Framework, das visuelle klinische Konzepte mit multimodaler Retrieval-Augmented Generation (RAG) kombiniert, um sowohl die Interpretierbarkeit als auch die faktische Genauigkeit bei der automatisierten Generierung radiologischer Berichte zu verbessern und dabei das angenommene Zielkonflikt zwischen Transparenz und Leistung aufzulösen.

Marco Salmè, Federico Siciliano, Fabrizio Silvestri + 3 more2026-02-18💻 cs

Bayesian Optimization for Design Parameters of 3D Image Data Analysis

Die Autoren stellen eine 3D-Datenanalyse-Optimierungspipeline vor, die mittels zweier Bayesscher Optimierungsstufen die Auswahl und Parametrisierung von Segmentierungs- und Klassifizierungsmodellen für biomedizinische 3D-Bilder automatisiert und dabei den manuellen Annotationsaufwand durch einen assistierten Workflow reduziert.

David Exler, Joaquin Eduardo Urrutia Gómez, Martin Krüger + 5 more2026-02-18🤖 cs.AI

Criteria-first, semantics-later: reproducible structure discovery in image-based sciences

Der Artikel schlägt einen Paradigmenwechsel in der bildbasierten Wissenschaft vor, bei dem die semantikfreie, kriterienbasierte Strukturerkennung der semantischen Zuordnung vorgeschaltet wird, um reproduzierbare und ontologieunabhängige Analysen zu ermöglichen.

Jan Bumberger2026-02-18🤖 cs.AI

← Zurück Weiter →