TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval

Das Paper stellt TRACE vor, ein neuartiges Framework für universelle multimodale Retrieval, das durch die Generierung und Komprimierung von Chain-of-Thought-Reasoning in einen kompakten Embedding-Token die Genauigkeit bei komplexen Abfragen verbessert, gleichzeitig aber durch implizites Routing die Effizienz bei einfachen Anfragen erhält und somit den aktuellen State-of-the-Art auf dem M-BEIR-Benchmark übertrifft.

Xiangzhao Hao, Shijie Wang, Tianyu Yang + 3 more2026-03-05💻 cs

MoECLIP: Patch-Specialized Experts for Zero-shot Anomaly Detection

Das Paper stellt MoECLIP vor, ein Mixture-of-Experts-Modell für die Zero-Shot-Anomalieerkennung, das durch dynamisches Patch-Routing zu spezialisierten LoRA-Experten sowie durch orthogonale Merkmalsseparation und ETF-Verlust die Generalisierungsfähigkeit von CLIP erhält und gleichzeitig eine präzise Anpassung an Anomalien ermöglicht, wodurch es auf 14 Benchmark-Datensätzen den State-of-the-Art übertrifft.

Jun Yeong Park, JunYoung Seo, Minji Kang + 1 more2026-03-05🤖 cs.AI

ProSMA-UNet: Decoder Conditioning for Proximal-Sparse Skip Feature Selection

Die Arbeit stellt ProSMA-UNet vor, ein U-Net-Modell, das durch decoder-konditionierte, sparse Feature-Auswahl mittels eines 1\ell_1-proximalen Operators und mehrskaliger Kompatibilitätsfelder Rauschen in Skip-Connections effektiv unterdrückt und damit insbesondere bei schwierigen 3D-Medizinbildsegmentierungen einen neuen State-of-the-art erreicht.

Chun-Wun Cheng, Yanqi Cheng, Peiyuan Jing + 4 more2026-03-05💻 cs

Beyond Accuracy: Evaluating Visual Grounding In Multimodal Medical Reasoning

Die Studie zeigt, dass herkömmliche Genauigkeitsmetriken in der multimodalen medizinischen Bildanalyse irreführend sein können, da sie oft textbasierte Abkürzungen belohnen und eine neue, gegenkontrastive Evaluierungsframework mit Metriken wie dem Visual Reliance Score (VRS) und der Halluzinierten Visuellen Schlussfolgerungsrate (HVRR) vorschlägt, um das tatsächliche visuelle Verständnis von Modellen zu messen und zu verbessern.

Anas Zafar, Leema Krishna Murali, Ashish Vashist2026-03-05💻 cs

Impact of Localization Errors on Label Quality for Online HD Map Construction

Diese Studie untersucht, wie sich verschiedene Lokalisierungsfehler (Ramp-, Gauß- und Perlin-Rauschen) auf die Qualität von Labels für den Online-Bau von HD-Karten auswirken, und zeigt, dass insbesondere Winkelabweichungen die Leistung von Modellen wie MapTRv2 stärker beeinträchtigen als Positionsfehler, wobei die Leistung mit zunehmendem Anteil an verrauschten Daten überproportional abnimmt.

Alexander Blumberg, Jonas Merkert, Richard Fehler + 4 more2026-03-05💻 cs

Geographically-Weighted Weakly Supervised Bayesian High-Resolution Transformer for 200m Resolution Pan-Arctic Sea Ice Concentration Mapping and Uncertainty Estimation using Sentinel-1, RCM, and AMSR2 Data

Diese Studie stellt einen neuartigen, geographisch gewichteten, schwach überwachten Bayesianischen High-Resolution Transformer vor, der Sentinel-1-, RCM- und AMSR2-Daten fusioniert, um eine präzise 200-m-Auflösung der Meereiskonzentration im gesamten Arktischen Ozean mit zuverlässiger Unsicherheitsschätzung zu ermöglichen.

Mabel Heffring, Lincoln Linlin Xu2026-03-05🤖 cs.LG

PinCLIP: Large-scale Foundational Multimodal Representation at Pinterest

Das Paper stellt PinCLIP vor, ein groß angelegtes multimodales Repräsentationsmodell auf Basis eines hybriden Vision-Transformers, das durch eine neuartige Nachbarn-Ausrichtungszielsetzung die Bild-Text-Ausrichtung bei Pinterest verbessert und sowohl die Offline-Leistung als auch die Online-Engagement-Metriken, einschließlich der Lösung des Cold-Start-Problems, signifikant steigert.

Josh Beal, Eric Kim, Jinfeng Rao + 3 more2026-03-05💻 cs