V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

Die Arbeit stellt V-Retrver vor, ein evidenzbasiertes Framework für universelle multimodale Retrieval-Aufgaben, das Large Language Models durch einen agenten Reasoning-Prozess mit gezielten visuellen Werkzeugen befähigt, Hypothesen aktiv zu verifizieren und so die Genauigkeit und Zuverlässigkeit gegenüber rein sprachgetriebenen Ansätzen signifikant zu steigern.

Dongyang Chen, Chaoyang Wang, Dezhao Su + 6 more2026-02-26💻 cs

Beyond Calibration: Confounding Pathology Limits Foundation Model Specificity in Abdominal Trauma CT

Die Studie zeigt, dass die geringere Spezifität von Foundation-Modellen bei der Detektion von Darmverletzungen im Bauchraum nicht allein auf die seltene Prävalenz zurückzuführen ist, sondern maßgeblich durch die Heterogenität der negativen Klasse bedingt wird, insbesondere wenn gleichzeitig solide Organverletzungen vorliegen, was eine Anpassung vor dem klinischen Einsatz erfordert.

Jineel H Raythatha, Shuchang Ye, Jeremy Hsu + 1 more2026-02-26⚡ eess

Extracting and Analyzing Rail Crossing Behavior Signatures from Videos using Tensor Methods

Diese Arbeit stellt ein Tensor-Zerlegungsframework vor, das mithilfe von TimeSformer-Embeddings und nicht-negativer symmetrischer CP-Zerlegung verdeckte Verhaltensmuster an Eisenbahnkreuzungen über verschiedene Phasen hinweg analysiert und dabei zeigt, dass der Standort ein stärkerer Determinant für das Fahrerverhalten ist als die Tageszeit.

Dawon Ahn, Het Patel, Aemal Khattak + 2 more2026-02-26🤖 cs.LG

GS-CLIP: Zero-shot 3D Anomaly Detection by Geometry-Aware Prompt and Synergistic View Representation Learning

Das Paper stellt GS-CLIP vor, ein Framework für die Zero-shot 3D-Anomalieerkennung, das durch geometrieaware Prompts und ein synergistisches Lernverfahren zur Verarbeitung von gerenderten und Tiefenbildern die Einschränkungen bestehender CLIP-basierter Methoden überwindet und so eine überlegene Detektionsleistung auf vier großen Datensätzen erzielt.

Zehao Deng, An Liu, Yan Wang2026-02-26💻 cs

Exploiting Label-Independent Regularization from Spatial Dependencies for Whole Slide Image Analysis

Die vorgestellte Arbeit schlägt einen räumlich regularisierten MIL-Rahmen vor, der intrinsische räumliche Abhängigkeiten zwischen Patch-Features als label-unabhängige Regularisierung nutzt, um das Problem der spärlichen Annotationen bei der Analyse ganzer Gewebeschnitte zu überwinden und so die Diagnosegenauigkeit signifikant zu verbessern.

Weiyi Wu, Xinwen Xu, Chongyang Gao + 3 more2026-02-26💻 cs

RelA-Diffusion: Relativistic Adversarial Diffusion for Multi-Tracer PET Synthesis from Multi-Sequence MRI

Die Studie stellt RelA-Diffusion vor, einen relativistischen adversären Diffusionsansatz, der T1- und T2-FLAIR-MRT-Aufnahmen nutzt, um mittels eines gradientenbestraften Verlusts realistische Mehr-Tracer-PET-Bilder für die neurologische Diagnostik zu synthetisieren und dabei bestehende Methoden in Bildqualität und Genauigkeit übertrifft.

Minhui Yu, Yongheng Sun, David S. Lalush + 3 more2026-02-26⚡ eess

MMLoP: Multi-Modal Low-Rank Prompting for Efficient Vision-Language Adaptation

Die Arbeit stellt MMLoP vor, einen effizienten Multi-Modal-Prompting-Ansatz, der durch Low-Rank-Faktorisierung und spezielle Regularisierungstechniken eine tiefgehende Anpassung von Vision-Language-Modellen mit nur 11.5K trainierbaren Parametern ermöglicht und dabei die Genauigkeit bestehender, deutlich größerer Methoden übertrifft.

Sajjad Ghiasvand, Haniyeh Ehsani Oskouie, Mahnoosh Alizadeh + 1 more2026-02-26🤖 cs.LG

WildSVG: Towards Reliable SVG Generation Under Real-Word Conditions

Die Arbeit stellt die WildSVG-Benchmark mit natürlichen und synthetischen Datensätzen vor, um die Lücke bei der zuverlässigen Extraktion von SVGs aus realen Bildern zu schließen, und zeigt, dass aktuelle Multimodal-Modelle in diesem Szenario noch erhebliche Schwächen aufweisen, wobei iterative Verfeinerungsmethoden jedoch vielversprechende Lösungsansätze bieten.

Marco Terral, Haotian Zhang, Tianyang Zhang + 8 more2026-02-26💻 cs