cs.CV Arbeiten | Gist.Science

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

Die Autoren stellen einen robusten Anpassungsrahmen für große multimodale Modelle vor, der durch Retrieval-Augmentation die Genauigkeit, Generalisierungsfähigkeit und Erklärbarkeit bei der Erkennung von Hass-Memes verbessert und dabei die Leistungsfähigkeit bestehender Methoden übertrifft.

Jingbiao Mei, Jinghong Chen, Guangyu Yang + 2 more2026-03-03💬 cs.CL

Thicker and Quicker: A Jumbo Token for Fast Plain Vision Transformers

Die Arbeit stellt „Jumbo" vor, einen effizienten Plain Vision Transformer, der durch die Einführung eines einzigen, breiten globalen Tokens die Geschwindigkeit erhöht und gleichzeitig die Genauigkeit sowie die Kompatibilität mit bestehenden ViT-Methoden verbessert.

Anthony Fuller, Yousef Yassin, Daniel G. Kyrollos + 2 more2026-03-03💻 cs

MemeIntel: Explainable Detection of Propagandistic and Hateful Memes

Die Arbeit stellt mit MemeXplain den ersten groß angelegten Datensatz für erklärbare Erkennung von Propaganda und Hassmemes vor und schlägt einen mehrstufigen Optimierungsansatz für Vision-Language-Modelle vor, der sowohl die Klassifizierungsgenauigkeit als auch die Qualität der Erklärungen im Vergleich zum State-of-the-Art signifikant verbessert.

Mohamed Bayan Kmainasi, Abul Hasnat, Md Arid Hasan + 2 more2026-03-03💬 cs.CL

Openfly: A comprehensive platform for aerial vision-language navigation

Das Paper stellt OpenFly vor, eine umfassende Plattform mit einem automatisierten Toolchain, einer großen Datensatzbasis und einem spezialisierten Agenten, um die bisher vernachlässigte Forschung zur visuell-sprachlichen Navigation im Außenbereich aus der Luft zu ermöglichen.

Yunpeng Gao, Chenhui Li, Zhongrui You + 20 more2026-03-03💻 cs

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

Das Paper stellt LLaVE vor, ein skalierbares multimodales Embedding-Modell, das durch einen Hardness-Weighted Contrastive Learning-Ansatz die Unterscheidung schwieriger Negativpaare verbessert und damit auf dem MMEB-Benchmark neue State-of-the-Art-Ergebnisse erzielt, die sogar größere Modelle übertreffen.

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Das Paper stellt Vision-R1 vor, ein multimodales Sprachmodell, das durch die Kombination eines selbstgenerierten Cold-Start-Datensatzes und einer fortschrittlichen Reinforcement-Learning-Strategie (PTST mit GRPO) überlegene multimodale Schlussfolgerungsfähigkeiten erreicht und auf dem MathVista-Benchmark mit OpenAI O1 konkurrieren kann.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

Die Arbeit stellt SemHiTok vor, einen einheitlichen Bild-Tokenisierer, der durch einen semantisch geführten hierarchischen Codebook-Ansatz die Herausforderung eines optimalen Kompromisses zwischen multimodalem Verständnis und Bildgenerierung löst, indem er semantische und pixelbasierte Merkmale strukturell entkoppelt.

Zisheng Chen, Chunwei Wang, Runhui Huang + 6 more2026-03-03🤖 cs.AI

Effective and Efficient Masked Image Generation Models

Die Arbeit stellt eMIGM vor, ein einheitliches Framework für Masked Image Generation, das durch optimiertes Training und Sampling eine überlegene Effizienz und Leistung bei der Bildgenerierung auf ImageNet im Vergleich zu bestehenden diskreten und kontinuierlichen Diffusionsmodellen erreicht.

Zebin You, Jingyang Ou, Xiaolu Zhang + 3 more2026-03-03🤖 cs.LG

SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models

Die Arbeit stellt SPEED vor, eine effiziente Methode zum Löschen von Konzepten aus Diffusionsmodellen durch direkte Parameterbearbeitung in einem Nullraum, die durch drei Strategien eine präzise Entfernung bei gleichzeitiger Wahrung der Bildqualität nicht betroffener Konzepte ermöglicht.

Ouxiang Li, Yuan Wang, Xinting Hu + 3 more2026-03-03💻 cs

A Multi-Objective Evaluation Framework for Analyzing Utility-Fairness Trade-Offs in Machine Learning Systems

Diese Arbeit stellt ein modellagnostisches, mehrkriterielles Evaluierungsframework vor, das den Trade-off zwischen Nutzen und Fairness in Machine-Learning-Systemen, insbesondere im medizinischen Bildbereich, durch eine kompakte Visualisierung und quantitative Analyse systematisch bewertet und dabei die Open-Source-Verfügbarkeit unterstreicht.

Gökhan Özbulak, Oscar Jimenez-del-Toro, Maíra Fatoretto + 2 more2026-03-03🤖 cs.LG

Target-Aware Video Diffusion Models

Die Autoren stellen ein zielbewusstes Video-Diffusionsmodell vor, das durch die Integration von Segmentierungsmasken und Textprompts realistische Videos generiert, in denen Akteure gezielte Interaktionen mit spezifischen Objekten durchführen, und demonstrieren dessen Überlegenheit gegenüber bestehenden Methoden sowie seine Anwendbarkeit in Bereichen wie der 3D-Bewegungssynthese und der langfristigen Videoerstellung.

Taeksoo Kim, Hanbyul Joo2026-03-03💻 cs

AdaRank: Adaptive Rank Pruning for Enhanced Model Merging

Das Paper stellt AdaRank vor, einen neuartigen Rahmen für das Zusammenführen von Modellen, der durch adaptive, entropie-minimierende Pruning von Singularwerten während des Testens störende Überlappungen zwischen Aufgaben reduziert und damit einen nahezu optimalen Leistungsstand erreicht.

Chanhyuk Lee, Jiho Choi, Chanryeol Lee + 2 more2026-03-03🤖 cs.AI

Physically Ground Commonsense Knowledge for Articulated Object Manipulation with Analytic Concepts

Die vorgestellte Arbeit führt analytische Konzepte ein, die als mathematisch definierte Brücke zwischen semantischem Common-Sense-Wissen von Multi-modalen Large Language Models und der physischen Welt dienen, um Roboter bei der generalisierten Manipulation von artikulierte Objekten präzise zu steuern.

Jiude Wei, Yuxuan Li, Cewu Lu + 1 more2026-03-03💻 cs

OSDM-MReg: Multimodal Image Registration based One Step Diffusion Model

Die Arbeit stellt OSDM-MReg vor, ein neuartiges Framework zur multimodalen Bildregistrierung, das mithilfe eines einstufigen, zielgerichteten Diffusionsmodells (UTGOS-CDM) die Modalitätslücke überbrückt und durch eine nachfolgende mehrskalige Fusionsnetzwerkarchitektur (MM-Reg) eine präzisere und schnellere Ausrichtung von Fernerkundungsbildern mit großen radiometrischen Unterschieden ermöglicht.

Xiaochen Wei, Weiwei Guo, Wenxian Yu + 2 more2026-03-03⚡ eess

VR-FuseNet: A Fusion of Heterogeneous Fundus Data and Explainable Deep Network for Diabetic Retinopathy Classification

Der Artikel stellt VR-FuseNet vor, ein hybrides Deep-Learning-Modell, das durch die Fusion von VGG19 und ResNet50V2, die Verarbeitung eines ausgewogenen Hybriddatensatzes sowie den Einsatz erklärbarer KI-Methoden eine präzise und klinisch interpretierbare Diagnose der diabetischen Retinopathie mit einer Genauigkeit von 91,824 % ermöglicht.

Shamim Rahim Refat, Ziyan Shirin Raha, Shuvashis Sarker + 4 more2026-03-03💻 cs

Towards Application-Specific Evaluation of Vision Models: Case Studies in Ecology and Biology

Die Autoren argumentieren, dass Computer-Vision-Modelle in der Ökologie und Biologie nicht nur anhand herkömmlicher ML-Metriken, sondern durch anwendungsspezifische Kennzahlen bewertet werden sollten, da selbst leistungsstarke Modelle zu erheblichen Abweichungen in den daraus abgeleiteten biologischen Schlussfolgerungen führen können.

Alex Hoi Hang Chan, Otto Brookes, Urs Waldmann + 11 more2026-03-03💻 cs

Wasserstein Distances Made Explainable: Insights Into Dataset Shifts and Transport Phenomena

Diese Arbeit stellt eine neue Methode vor, die mithilfe von Explainable AI die Beiträge verschiedener Datenkomponenten zu Wasserstein-Abständen erklärt, um so Ursachen für Verteilungsverschiebungen und Transportphänomene präzise zu identifizieren.

Philip Naumann, Jacob Kauffmann, Grégoire Montavon2026-03-03🤖 cs.AI

Dynamic Uncertainty Learning with Noisy Correspondence for Text-Based Person Search

Die Arbeit stellt das DURA-Framework vor, das durch einen Key Feature Selector zur Modellierung von Unsicherheit und einen neuen Dynamic Softmax Hinge Loss die Robustheit von textbasierten Personensuchsystemen gegenüber verrauschten Daten verbessert.

Zequn Xie, Haoming Ji, Chengxuan Li + 1 more2026-03-03💻 cs

Adversarially Pretrained Transformers May Be Universally Robust In-Context Learners

Diese Studie liefert den ersten theoretischen Nachweis, dass durch adversariales Pretraining vortrainierte Transformer-Modelle als universell robuste Basis-Modelle fungieren können, die sich durch In-Context-Learning mit sauberen Beispielen ohne weitere adversariale Anpassung robust auf neue Aufgaben übertragen lassen.

Soichiro Kumano, Hiroshi Kera, Toshihiko Yamasaki2026-03-03📊 stat

Flexible-weighted Chamfer Distance: Enhanced Objective Function for Point Cloud Completion

Die Autoren stellen den Flexible-weighted Chamfer Distance (FCD) vor, eine asymmetrische Zielfunktion für die Punktwolken-Vervollständigung, die durch die Entkopplung lokaler Präzision und globaler Vollständigkeit strukturelle Mängel wie Punktclustering reduziert und sowohl globale Verteilungsmetriken als auch die visuelle Qualität der Ergebnisse signifikant verbessert.

Jie Li, Shengwei Tian, Long Yu + 1 more2026-03-03💻 cs

← Zurück Weiter →