Hierarchical Refinement of Universal Multimodal Attacks on Vision-Language Models

Die Arbeit stellt die Hierarchische Verfeinerungsangriff (HRA) vor, einen universellen multimodalen Angriffsrahmen für Vision-Language-Modelle, der durch die Nutzung einer zeitlichen Hierarchie von Gradienten für Bilder und eine hierarchische Modellierung der Textbedeutung effiziente und übertragbare Angriffe ermöglicht, die den hohen Rechenaufwand bisheriger, nur auf einzelne Proben zugeschnittener Methoden überwinden.

Peng-Fei Zhang, Zi Huang2026-02-18💻 cs

Towards Human-AI Accessibility Mapping in India: VLM-Guided Annotations and POI-Centric Analysis in Chandigarh

Diese Studie beschreibt die Anpassung der Crowdsourcing-Plattform Project Sidewalk für Chandigarh, Indien, durch die Integration von visuell-linguistischen Modellen zur Anleitung von Annotatoren, um eine POI-zentrierte Analyse der Gehweg-Zugänglichkeit durchzuführen und über 1.600 potenzielle Verbesserungsstellen auf 40 Kilometern Infrastruktur zu identifizieren.

Varchita Lalwani, Utkarsh Agarwal, Michael Saugstad + 3 more2026-02-18💻 cs

GRAFNet: Multiscale Retinal Processing via Guided Cortical Attention Feedback for Enhancing Medical Image Polyp Segmentation

Das Paper stellt GRAFNet vor, ein biologisch inspiriertes Deep-Learning-Modell, das durch die Integration von geführter kortikaler Aufmerksamkeit und multiskaliger retinaler Verarbeitung die Genauigkeit und Generalisierungsfähigkeit bei der medizinischen Polypensegmentierung in Koloskopiebildern signifikant verbessert.

Abdul Joseph Fofanah, Lian Wen, Alpha Alimamy Kamara + 3 more2026-02-18🤖 cs.AI

StrokeNeXt: A Siamese-encoder Approach for Brain Stroke Classification in Computed Tomography Imagery

Die Studie stellt StrokeNeXt vor, ein auf Siamesen-Encodern basierendes Modell zur Klassifizierung von Schlaganfällen in CT-Bildern, das durch eine Dual-Branch-Architektur mit ConvNeXt-Encodern und einem leichten Decoder eine überlegene Genauigkeit, statistisch signifikante Leistungssteigerungen gegenüber bestehenden Methoden sowie eine schnelle Inferenzzeit erreicht.

Leo Thomas Ramos, Angel D. Sappa2026-02-18⚡ eess

Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition

Diese Arbeit stellt einen neuartigen, detektorunabhängigen Rahmen für die Zero-shot-Erkennung von Mensch-Objekt-Interaktionen vor, der Multi-Modal Large Language Models (MLLMs) mit einem deterministischen Generierungsansatz und räumlich bewussten Pooling-Modulen kombiniert, um eine trainingsfreie Generalisierung auf unsichtbare Interaktionen zu ermöglichen.

Shiyu Xuan, Dongkai Wang, Zechao Li + 1 more2026-02-18💻 cs

MB-DSMIL-CL-PL: Scalable Weakly Supervised Ovarian Cancer Subtype Classification and Localisation Using Contrastive and Prototype Learning with Frozen Patch Features

Die Studie stellt MB-DSMIL-CL-PL vor, einen skalierbaren Ansatz zur schwach überwachten Klassifizierung und Lokalisierung von Ovarialkrebs-Subtypen, der durch kontrastives und Prototypen-Lernen mit vorgefertigten, eingefrorenen Patch-Features eine signifikant höhere Genauigkeit als DSMIL bei gleichzeitiger Beibehaltung der Trainings-Skalierbarkeit erreicht.

Marcus Jenkins, Jasenka Mazibrada, Bogdan Leahu + 1 more2026-02-18🤖 cs.AI

CGRA-DeBERTa Concept Guided Residual Augmentation Transformer for Theologically Islamic Understanding

Die Studie stellt CGRA-DeBERTa vor, ein konzeptgestütztes Transformer-Modell mit residualer Verstärkung, das durch die Integration theologischer Priors und eines selektiven Gating-Mechanismus die Genauigkeit bei der Beantwortung von Fragen zu Hadith-Texten auf 97,85 % EM-Score steigert und damit bestehende Modelle wie DeBERTa signifikant übertrifft.

Tahir Hussain, Saddam Hussain Khan2026-02-18💬 cs.CL

Time-Archival Camera Virtualization for Sports and Visual Performances

Dieses Papier stellt ein neuartiges Verfahren zur Kamera-Virtualisierung für Sport und visuelle Darbietungen vor, das durch die Modellierung dynamischer Szenen als starre Transformationen über mehrere synchronisierte Kameraperspektiven hinweg eine effiziente Zeitarchivierung und fotorealistische Nachbearbeitung beliebiger vergangener Momente ermöglicht, ohne auf die bei bestehenden 3D-Gaussian-Splatting-Ansätzen üblichen Einschränkungen bei schnellen, nicht-starren Bewegungen angewiesen zu sein.

Yunxiao Zhang, William Stone, Suryansh Kumar2026-02-18🤖 cs.LG

Sparrow: Text-Anchored Window Attention with Visual-Semantic Glimpsing for Speculative Decoding in Video LLMs

Die Arbeit stellt Sparrow vor, ein Framework für die spekulative Dekodierung in Video-LLMs, das durch textverankerte Fenster-Aufmerksamkeit und die Nutzung semantisch reicher Zwischenschichtzustände die Leistungseinbußen bei langen Sequenzen überwindet und eine durchschnittliche Beschleunigung von 2,82-fach erreicht.

Libo Zhang, Zhaoning Zhang, Wangyang Hong + 2 more2026-02-18🤖 cs.AI

CREMD: Crowd-Sourced Emotional Multimodal Dogs Dataset

Die Studie stellt das CREMD-Dataset vor, ein crowd-sourcetes multimodales Datenset zur Erkennung von Hundefühlen, das zeigt, dass visuelle Kontextinformationen die Übereinstimmung bei der Emotionszuweisung signifikant verbessern und professionelle Annotatoren sowie nicht-Hundebesitzer und männliche Teilnehmer höhere Übereinstimmungswerte aufweisen, während Audio zwar das Vertrauen in die Identifizierung spezifischer Emotionen steigert, aber aufgrund von Designbeschränkungen keine klaren Rückschlüsse auf die Übereinstimmung zulässt.

Jinho Baek, Houwei Cao, Kate Blackwell2026-02-18💻 cs