cs.CV Arbeiten | Gist.Science

Hierarchical Refinement of Universal Multimodal Attacks on Vision-Language Models

Die Arbeit stellt die Hierarchische Verfeinerungsangriff (HRA) vor, einen universellen multimodalen Angriffsrahmen für Vision-Language-Modelle, der durch die Nutzung einer zeitlichen Hierarchie von Gradienten für Bilder und eine hierarchische Modellierung der Textbedeutung effiziente und übertragbare Angriffe ermöglicht, die den hohen Rechenaufwand bisheriger, nur auf einzelne Proben zugeschnittener Methoden überwinden.

Peng-Fei Zhang, Zi Huang2026-02-18💻 cs

TTSA3R: Training-Free Temporal-Spatial Adaptive Persistent State for Streaming 3D Reconstruction

Die Arbeit stellt TTSA3R vor, ein trainingsfreies Framework, das durch die Fusion von zeitlicher Zustandsentwicklung und räumlicher Beobachtungsqualität adaptive Aktualisierungen ermöglicht, um das katastrophale Vergessen bei der Streaming-3D-Rekonstruktion über lange Sequenzen hinweg signifikant zu reduzieren.

Zhijie Zheng, Xinhao Xiang, Jiawei Zhang2026-02-18💻 cs

Prompt Reinjection: Alleviating Prompt Forgetting in Multimodal Diffusion Transformers

Die Arbeit identifiziert das Phänomen des Prompt-Vergessens in multimodalen Diffusions-Transformern und stellt eine trainingsfreie Methode namens „Prompt Reinjection" vor, die durch das Wiedereinspeisen früher Prompt-Repräsentationen in tiefere Schichten die Text-Bild-Generierungsqualität und die Befolgung von Anweisungen signifikant verbessert.

Yuxuan Yao, Yuxuan Chen, Hui Li + 6 more2026-02-18💻 cs

Towards Human-AI Accessibility Mapping in India: VLM-Guided Annotations and POI-Centric Analysis in Chandigarh

Diese Studie beschreibt die Anpassung der Crowdsourcing-Plattform Project Sidewalk für Chandigarh, Indien, durch die Integration von visuell-linguistischen Modellen zur Anleitung von Annotatoren, um eine POI-zentrierte Analyse der Gehweg-Zugänglichkeit durchzuführen und über 1.600 potenzielle Verbesserungsstellen auf 40 Kilometern Infrastruktur zu identifizieren.

Varchita Lalwani, Utkarsh Agarwal, Michael Saugstad + 3 more2026-02-18💻 cs

GRAFNet: Multiscale Retinal Processing via Guided Cortical Attention Feedback for Enhancing Medical Image Polyp Segmentation

Das Paper stellt GRAFNet vor, ein biologisch inspiriertes Deep-Learning-Modell, das durch die Integration von geführter kortikaler Aufmerksamkeit und multiskaliger retinaler Verarbeitung die Genauigkeit und Generalisierungsfähigkeit bei der medizinischen Polypensegmentierung in Koloskopiebildern signifikant verbessert.

Abdul Joseph Fofanah, Lian Wen, Alpha Alimamy Kamara + 3 more2026-02-18🤖 cs.AI

StrokeNeXt: A Siamese-encoder Approach for Brain Stroke Classification in Computed Tomography Imagery

Die Studie stellt StrokeNeXt vor, ein auf Siamesen-Encodern basierendes Modell zur Klassifizierung von Schlaganfällen in CT-Bildern, das durch eine Dual-Branch-Architektur mit ConvNeXt-Encodern und einem leichten Decoder eine überlegene Genauigkeit, statistisch signifikante Leistungssteigerungen gegenüber bestehenden Methoden sowie eine schnelle Inferenzzeit erreicht.

Leo Thomas Ramos, Angel D. Sappa2026-02-18⚡ eess

Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition

Diese Arbeit stellt einen neuartigen, detektorunabhängigen Rahmen für die Zero-shot-Erkennung von Mensch-Objekt-Interaktionen vor, der Multi-Modal Large Language Models (MLLMs) mit einem deterministischen Generierungsansatz und räumlich bewussten Pooling-Modulen kombiniert, um eine trainingsfreie Generalisierung auf unsichtbare Interaktionen zu ermöglichen.

Shiyu Xuan, Dongkai Wang, Zechao Li + 1 more2026-02-18💻 cs

MB-DSMIL-CL-PL: Scalable Weakly Supervised Ovarian Cancer Subtype Classification and Localisation Using Contrastive and Prototype Learning with Frozen Patch Features

Die Studie stellt MB-DSMIL-CL-PL vor, einen skalierbaren Ansatz zur schwach überwachten Klassifizierung und Lokalisierung von Ovarialkrebs-Subtypen, der durch kontrastives und Prototypen-Lernen mit vorgefertigten, eingefrorenen Patch-Features eine signifikant höhere Genauigkeit als DSMIL bei gleichzeitiger Beibehaltung der Trainings-Skalierbarkeit erreicht.

Marcus Jenkins, Jasenka Mazibrada, Bogdan Leahu + 1 more2026-02-18🤖 cs.AI

CGRA-DeBERTa Concept Guided Residual Augmentation Transformer for Theologically Islamic Understanding

Die Studie stellt CGRA-DeBERTa vor, ein konzeptgestütztes Transformer-Modell mit residualer Verstärkung, das durch die Integration theologischer Priors und eines selektiven Gating-Mechanismus die Genauigkeit bei der Beantwortung von Fragen zu Hadith-Texten auf 97,85 % EM-Score steigert und damit bestehende Modelle wie DeBERTa signifikant übertrifft.

Tahir Hussain, Saddam Hussain Khan2026-02-18💬 cs.CL

Loss Knows Best: Detecting Annotation Errors in Videos via Loss Trajectories

Die Arbeit stellt eine modellunabhängige Methode vor, die durch die Analyse von kumulativen Verlustverläufen über verschiedene Trainingsepochen hinweg Annotationfehler wie falsche Beschriftungen oder zeitliche Unordnungen in Videodatensätzen automatisch erkennt, um deren Qualität zu verbessern.

Praditha Alwis, Soumyadeep Chandra, Deepak Ravikumar + 1 more2026-02-18🤖 cs.LG

Distributional Deep Learning for Super-Resolution of 4D Flow MRI under Domain Shift

Die vorgestellte Arbeit entwickelt ein verteilungsbasiertes Deep-Learning-Framework, das durch Training auf CFD-Simulationen und Feinabstimmung auf klinischen Daten die Super-Resolution von 4D-Flow-MRI-Bildern unter Domain-Shift-Bedingungen robust verbessert und so die Genauigkeit bei der Risikoabschätzung von Aneurysmen erhöht.

Xiaoyi Wen, Fei Jiang2026-02-18📊 stat

Time-Archival Camera Virtualization for Sports and Visual Performances

Dieses Papier stellt ein neuartiges Verfahren zur Kamera-Virtualisierung für Sport und visuelle Darbietungen vor, das durch die Modellierung dynamischer Szenen als starre Transformationen über mehrere synchronisierte Kameraperspektiven hinweg eine effiziente Zeitarchivierung und fotorealistische Nachbearbeitung beliebiger vergangener Momente ermöglicht, ohne auf die bei bestehenden 3D-Gaussian-Splatting-Ansätzen üblichen Einschränkungen bei schnellen, nicht-starren Bewegungen angewiesen zu sein.

Yunxiao Zhang, William Stone, Suryansh Kumar2026-02-18🤖 cs.LG

Visual Persuasion: What Influences Decisions of Vision-Language Models?

Diese Arbeit stellt ein Framework vor, das durch systematische Bildmanipulation und visuelle Prompt-Optimierung die visuellen Präferenzen von Vision-Language-Modellen analysiert, um deren Entscheidungsfindung zu interpretieren und potenzielle Sicherheitsrisiken proaktiv aufzudecken.

Manuel Cherep, Pranav M R, Pattie Maes + 1 more2026-02-18🤖 cs.AI

Consistency-Preserving Diverse Video Generation

Die Arbeit stellt einen gemeinsamen Abtastungsrahmen für Flow-Matching-Video-Generatoren vor, der die Vielfalt innerhalb eines Batches verbessert, während die zeitliche Konsistenz durch den Einsatz leichter latenter Modelle ohne aufwändige Decoder-Rückpropagation erhalten bleibt.

Xinshuang Liu, Runfa Blark Li, Truong Nguyen2026-02-18💻 cs

Training-Free Zero-Shot Anomaly Detection in 3D Brain MRI with 2D Foundation Models

Dieses Paper stellt ein vollständig trainingsfreies Framework vor, das 2D-Foundation-Modelle nutzt, um durch die Aggregation multipler Schnittebenen kompakte volumetrische Token für die Zero-Shot-Anomalieerkennung in 3D-Gehirn-MRTs zu erzeugen, ohne dass eine Feinabstimmung oder spezifische Überwachung erforderlich ist.

Tai Le-Gia, Jaehyun Ahn2026-02-18📊 stat

Sparrow: Text-Anchored Window Attention with Visual-Semantic Glimpsing for Speculative Decoding in Video LLMs

Die Arbeit stellt Sparrow vor, ein Framework für die spekulative Dekodierung in Video-LLMs, das durch textverankerte Fenster-Aufmerksamkeit und die Nutzung semantisch reicher Zwischenschichtzustände die Leistungseinbußen bei langen Sequenzen überwindet und eine durchschnittliche Beschleunigung von 2,82-fach erreicht.

Libo Zhang, Zhaoning Zhang, Wangyang Hong + 2 more2026-02-18🤖 cs.AI

EventMemAgent: Hierarchical Event-Centric Memory for Online Video Understanding with Adaptive Tool Use

Die Arbeit stellt EventMemAgent vor, ein aktives Agenten-Framework, das durch ein hierarchisches Gedächtnis und adaptiven Werkzeuggebrauch die Herausforderung des Online-Video-Verständnisses in unendlichen Datenströmen löst, indem es kurzfristige Ereigniserkennung mit langfristiger Ereignisarchivierung kombiniert.

Siwei Wen, Zhangcheng Wang, Xingjian Zhang + 2 more2026-02-18💻 cs

Benchmarking Self-Supervised Models for Cardiac Ultrasound View Classification

Diese Studie zeigt, dass das selbstüberwachte Lernframework USF-MAE im Vergleich zu MoCo v3 auf dem CACTUS-Datensatz eine überlegene Leistung bei der Klassifizierung von Herzultraschallansichten erzielt.

Youssef Megahed, Salma I. Megahed, Robin Ducharme + 4 more2026-02-18⚡ eess

Effective and Robust Multimodal Medical Image Analysis

Die Autoren stellen ein effizientes und robustes Multimodal-Fusionsnetzwerk namens MAIL vor, das durch modale spezifische Multi-Scale-Muster und komplementäre gemeinsame Repräsentationen die Genauigkeit bei der Analyse medizinischer Bilddaten signifikant verbessert und gleichzeitig die Rechenkosten senkt sowie die Widerstandsfähigkeit gegen adversarielle Angriffe erhöht.

Joy Dhar, Nayyar Zaidi, Maryam Haghighat2026-02-18💻 cs

CREMD: Crowd-Sourced Emotional Multimodal Dogs Dataset

Die Studie stellt das CREMD-Dataset vor, ein crowd-sourcetes multimodales Datenset zur Erkennung von Hundefühlen, das zeigt, dass visuelle Kontextinformationen die Übereinstimmung bei der Emotionszuweisung signifikant verbessern und professionelle Annotatoren sowie nicht-Hundebesitzer und männliche Teilnehmer höhere Übereinstimmungswerte aufweisen, während Audio zwar das Vertrauen in die Identifizierung spezifischer Emotionen steigert, aber aufgrund von Designbeschränkungen keine klaren Rückschlüsse auf die Übereinstimmung zulässt.

Jinho Baek, Houwei Cao, Kate Blackwell2026-02-18💻 cs

← Zurück Weiter →