The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems

Die Arbeit stellt „Vision Wormhole" vor, ein neuartiges Framework, das über einen universellen visuellen Codec und eine Hub-and-Spoke-Architektur die effiziente, textfreie Kommunikation zwischen heterogenen Multi-Agenten-Systemen ermöglicht, indem es reasoning traces direkt in den visuellen Pfad von Vision-Language-Modellen injiziert, um Latenz und Informationsverlust zu reduzieren.

Xiaoze Liu, Ruowang Zhang, Weichen Yu + 7 more2026-02-18💬 cs.CL

Bridging Day and Night: Target-Class Hallucination Suppression in Unpaired Image Translation

Die Autoren stellen einen neuartigen Rahmen vor, der auf einem Schrodinger-Brücken-Modell basiert und durch die Verwendung von dualen Diskriminatoren sowie klassenspezifischen Prototypen Halluzinationen von Zielklassen-Features bei der unpaarigen Bildübersetzung von Tag zu Nacht effektiv erkennt und unterdrückt, was die Leistung nachgelagerter Aufgaben signifikant verbessert.

Shuwei Li, Lei Tan, Robby T. Tan2026-02-18💻 cs

Efficient Generative Modeling beyond Memoryless Diffusion via Adjoint Schrödinger Bridge Matching

Die Arbeit stellt Adjoint Schrödinger Bridge Matching (ASBM) vor, ein effizientes generatives Modellierungsframework, das durch die Nutzung nicht-gedächtnisloser Prozesse und optimaler Kopplungen geradeere Trajektorien ermöglicht, was zu stabilerem Training, weniger Sampling-Schritten und höherer Bildqualität im Vergleich zu herkömmlichen Diffusionsmodellen führt.

Jeongwoo Shin, Jinhwan Sul, Joonseok Lee + 2 more2026-02-18💻 cs

On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks

Die Studie zeigt, dass Chain-of-Thought-Methoden zwar die In-Distribution-Generalisierung multimodaler LLMs bei einfachen visuellen Planungsaufgaben verbessern, die Out-of-Distribution-Generalisierung jedoch begrenzt bleibt, wobei textbasierte Modelle und hybride Textformate für die Reasoning-Traces die besten Ergebnisse erzielen.

Yannic Neuhaus, Nicolas Flammarion, Matthias Hein + 1 more2026-02-18🤖 cs.LG

RPT-SR: Regional Prior attention Transformer for infrared image Super-Resolution

Die Arbeit stellt RPT-SR vor, einen regional priorisierten Transformer, der durch die Fusion von lernbaren Szenen-Gedächtnistokens mit lokalen Bildinformationen die Infrarot-Super-Resolution für statische Überwachungs- und Fahrzeugszenen effizienter gestaltet und dabei sowohl Lang- als auch Kurzwellen-Infrarotdaten auf einen neuen State-of-the-Art-Niveau hebt.

Youngwan Jin, Incheol Park, Yagiz Nalcakan + 3 more2026-02-18🤖 cs.AI

Advanced Acceptance Score: A Holistic Measure for Biometric Quantification

Dieses Paper stellt einen neuen ganzheitlichen Bewertungsmaßstab namens „Advanced Acceptance Score" vor, der die Qualität biometrischer Handgesten-Scores durch die Berücksichtigung von Rangordnung, Punktreward, Trendkorrelation und Identitätsentwirrung bewertet und dessen Überlegenheit gegenüber bestehenden Methoden durch umfangreiche Experimente mit fünf State-of-the-Art-Modellen auf drei Datensätzen nachgewiesen wird.

Aman Verma, Seshan Srirangarajan, Sumantra Dutta Roy2026-02-18💻 cs

CARE Drive A Framework for Evaluating Reason-Responsiveness of Vision Language Models in Automated Driving

Die Studie stellt CARE Drive vor, ein modellunabhängiges Framework zur systematischen Evaluierung der Reaktionsfähigkeit von Vision-Language-Modellen auf menschliche Entscheidungsgründe im automatisierten Fahren, indem kontextuelle Variationen genutzt werden, um zu prüfen, ob Erklärungen echte kausale Einflussfaktoren oder nur nachträgliche Rationalisierungen darstellen.

Lucas Elbert Suryana, Farah Bierenga, Sanne van Buuren + 6 more2026-02-18🤖 cs.AI

Guided Diffusion by Optimized Loss Functions on Relaxed Parameters for Inverse Material Design

Die vorgestellte Arbeit entwickelt eine Methode zur inversen Materialgestaltung, die Diffusionsmodelle auf einem relaxierten, kontinuierlichen Parameterraum nutzt, um durch geführte Diffusion und differentiable Simulation vielfältige und präzise Designs für Verbundwerkstoffe mit vorgegebenen mechanischen Eigenschaften zu generieren.

Jens U. Kreber, Christian Weißenfels, Joerg Stueckler2026-02-18🤖 cs.LG

Concept-Enhanced Multimodal RAG: Towards Interpretable and Accurate Radiology Report Generation

Die vorgestellte Arbeit führt CEMRAG ein, ein einheitliches Framework, das visuelle klinische Konzepte mit multimodaler Retrieval-Augmented Generation (RAG) kombiniert, um sowohl die Interpretierbarkeit als auch die faktische Genauigkeit bei der automatisierten Generierung radiologischer Berichte zu verbessern und dabei das angenommene Zielkonflikt zwischen Transparenz und Leistung aufzulösen.

Marco Salmè, Federico Siciliano, Fabrizio Silvestri + 3 more2026-02-18💻 cs