Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

Die Studie stellt M3IRT vor, ein multimodales und multidimensionales Item-Response-Theory-Framework, das die Fähigkeit von Multimodal Large Language Models zur cross-modalen Reasoning präziser bewertet, indem es Shortcut-Fragen identifiziert und eliminiert, um zuverlässigere Benchmarks mit geringerem Rechenaufwand zu ermöglichen.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

Intelligent Pathological Diagnosis of Gestational Trophoblastic Diseases via Visual-Language Deep Learning Model

Die Studie stellt GTDoctor und das darauf basierende Softwaresystem GTDiagnosis vor, die mittels eines visuell-sprachlichen Deep-Learning-Modells die pathologische Diagnose von Gestations-Trophoblast-Erkrankungen automatisieren und dabei sowohl die diagnostische Genauigkeit als auch die Effizienz im klinischen Alltag signifikant steigern.

Yuhang Liu, Yueyang Cang, Wenge Que + 12 more2026-03-04🤖 cs.AI

From "What" to "How": Constrained Reasoning for Autoregressive Image Generation

Die Arbeit stellt CoR-Painter vor, ein neuartiges Framework, das durch die Einführung von „Constrained Reasoning" und einer Dual-Objective GRPO-Strategie den Übergang von der reinen Beschreibung des „Was" zur strukturierten Planung des „Wie" bei der autoregressiven Bildgenerierung vollzieht und damit state-of-the-art Ergebnisse in Bezug auf räumliche Kohärenz erzielt.

Ruxue Yan, Xubo Liu, Wenya Guo + 3 more2026-03-04⚡ eess

Cross-view geo-localization, Image retrieval, Multiscale geometric modeling, Frequency domain enhancement

Die vorgestellte Spatial and Frequency Domain Enhancement Network (SFDE) überwindet die Herausforderungen der cross-view Geo-Lokalisierung durch eine dreistufige Parallelarchitektur, die räumliche und frequenzbasierte Merkmale kombiniert, um robuste und rechen-effiziente Merkmalsrepräsentationen trotz starker geometrischer Asymmetrie und Texturinkonsistenzen zu lernen.

Hongying Zhang, ShuaiShuai Ma2026-03-04💻 cs

Seeing Clearly without Training: Mitigating Hallucinations in Multimodal LLMs for Remote Sensing

Diese Arbeit stellt mit RSHBench ein neues Benchmark zur Diagnose von Halluzinationen in der Fernerkundung vor und schlägt die trainingsfreie Methode RADAR vor, die durch aktive, auf Aufmerksamkeit basierende Reasoning-Prozesse die Genauigkeit von Multimodalen Large Language Models bei visuellen Fragen zu Fernerkundungsbildern signifikant verbessert.

Yi Liu, Jing Zhang, Di Wang + 3 more2026-03-04💻 cs

HiLoRA: Hierarchical Low-Rank Adaptation for Personalized Federated Learning

Die Arbeit stellt HiLoRA vor, ein hierarchisches Low-Rank-Adaptions-Framework für personalisiertes Federated Learning, das durch die Platzierung von Adaptern auf drei Ebenen (Root, Cluster, Blatt) und eine subspace-basierte Client-Clustering-Mechanik latente Client-Strukturen nutzt, um die Generalisierung und Personalisierung von Vision Transformern zu verbessern.

Zihao Peng, Nan Zou, Jiandian Zeng + 4 more2026-03-04💻 cs

Designing UNICORN: a Unified Benchmark for Imaging in Computational Pathology, Radiology, and Natural Language

Das Paper stellt UNICORN vor, ein öffentliches, standardisiertes Benchmark-Framework, das die Bewertung medizinischer Fundamentmodelle über verschiedene Modalitäten, anatomische Regionen und Aufgaben hinweg durch eine einheitliche Few-Shot-Evaluationsmethode und einen aggregierten UNICORN-Score ermöglicht.

Michelle Stegeman, Lena Philipp, Fennie van der Graaf + 19 more2026-03-04💻 cs