MemeIntel: Explainable Detection of Propagandistic and Hateful Memes

Die Arbeit stellt mit MemeXplain den ersten groß angelegten Datensatz für erklärbare Erkennung von Propaganda und Hassmemes vor und schlägt einen mehrstufigen Optimierungsansatz für Vision-Language-Modelle vor, der sowohl die Klassifizierungsgenauigkeit als auch die Qualität der Erklärungen im Vergleich zum State-of-the-Art signifikant verbessert.

Mohamed Bayan Kmainasi, Abul Hasnat, Md Arid Hasan + 2 more2026-03-03💬 cs.CL

SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

Die Arbeit stellt SemHiTok vor, einen einheitlichen Bild-Tokenisierer, der durch einen semantisch geführten hierarchischen Codebook-Ansatz die Herausforderung eines optimalen Kompromisses zwischen multimodalem Verständnis und Bildgenerierung löst, indem er semantische und pixelbasierte Merkmale strukturell entkoppelt.

Zisheng Chen, Chunwei Wang, Runhui Huang + 6 more2026-03-03🤖 cs.AI

A Multi-Objective Evaluation Framework for Analyzing Utility-Fairness Trade-Offs in Machine Learning Systems

Diese Arbeit stellt ein modellagnostisches, mehrkriterielles Evaluierungsframework vor, das den Trade-off zwischen Nutzen und Fairness in Machine-Learning-Systemen, insbesondere im medizinischen Bildbereich, durch eine kompakte Visualisierung und quantitative Analyse systematisch bewertet und dabei die Open-Source-Verfügbarkeit unterstreicht.

Gökhan Özbulak, Oscar Jimenez-del-Toro, Maíra Fatoretto + 2 more2026-03-03🤖 cs.LG

OSDM-MReg: Multimodal Image Registration based One Step Diffusion Model

Die Arbeit stellt OSDM-MReg vor, ein neuartiges Framework zur multimodalen Bildregistrierung, das mithilfe eines einstufigen, zielgerichteten Diffusionsmodells (UTGOS-CDM) die Modalitätslücke überbrückt und durch eine nachfolgende mehrskalige Fusionsnetzwerkarchitektur (MM-Reg) eine präzisere und schnellere Ausrichtung von Fernerkundungsbildern mit großen radiometrischen Unterschieden ermöglicht.

Xiaochen Wei, Weiwei Guo, Wenxian Yu + 2 more2026-03-03⚡ eess

VR-FuseNet: A Fusion of Heterogeneous Fundus Data and Explainable Deep Network for Diabetic Retinopathy Classification

Der Artikel stellt VR-FuseNet vor, ein hybrides Deep-Learning-Modell, das durch die Fusion von VGG19 und ResNet50V2, die Verarbeitung eines ausgewogenen Hybriddatensatzes sowie den Einsatz erklärbarer KI-Methoden eine präzise und klinisch interpretierbare Diagnose der diabetischen Retinopathie mit einer Genauigkeit von 91,824 % ermöglicht.

Shamim Rahim Refat, Ziyan Shirin Raha, Shuvashis Sarker + 4 more2026-03-03💻 cs

Towards Application-Specific Evaluation of Vision Models: Case Studies in Ecology and Biology

Die Autoren argumentieren, dass Computer-Vision-Modelle in der Ökologie und Biologie nicht nur anhand herkömmlicher ML-Metriken, sondern durch anwendungsspezifische Kennzahlen bewertet werden sollten, da selbst leistungsstarke Modelle zu erheblichen Abweichungen in den daraus abgeleiteten biologischen Schlussfolgerungen führen können.

Alex Hoi Hang Chan, Otto Brookes, Urs Waldmann + 11 more2026-03-03💻 cs

Flexible-weighted Chamfer Distance: Enhanced Objective Function for Point Cloud Completion

Die Autoren stellen den Flexible-weighted Chamfer Distance (FCD) vor, eine asymmetrische Zielfunktion für die Punktwolken-Vervollständigung, die durch die Entkopplung lokaler Präzision und globaler Vollständigkeit strukturelle Mängel wie Punktclustering reduziert und sowohl globale Verteilungsmetriken als auch die visuelle Qualität der Ergebnisse signifikant verbessert.

Jie Li, Shengwei Tian, Long Yu + 1 more2026-03-03💻 cs