cs.CV Arbeiten | Gist.Science

CaptionFool: Universal Image Captioning Model Attacks

Die Studie stellt CaptionFool vor, einen universellen adversarialen Angriff auf Bildbeschreibungsmodelle, der durch die Manipulation weniger Bildpatches eine hohe Erfolgsrate bei der Erzeugung beliebiger, einschließlich beleidigender, Zielbeschreibungen erzielt und damit kritische Sicherheitslücken in Vision-Sprach-Modellen aufzeigt.

Swapnil Parekh2026-03-03🤖 cs.AI

RAFM: Retrieval-Augmented Flow Matching for Unpaired CBCT-to-CT Translation

Die vorgestellte Arbeit stellt RAFM vor, eine Methode zur unpaarigen CBCT-zu-CT-Übersetzung in der medizinischen Bildgebung, die durch den Einsatz von Retrieval-verstärktem Flow Matching und einem globalen CT-Speicherbank die Stabilität des Trainings verbessert und damit die Qualität synthetischer CT-Bilder für die Strahlentherapie signifikant steigert.

Xianhao Zhou, Jianghao Wu, Lanfeng Zhong + 4 more2026-03-03💻 cs

Multiple Inputs and Mixwd data for Alzheimer's Disease Classification Based on 3D Vision Transformer

Diese Studie stellt die MIMD-3DVT-Methode vor, einen neuartigen 3D-Vision-Transformer, der durch die Integration von gemischten Daten (soziodemografische Faktoren, kognitive Tests und 3D-MRT-Bilder) sowie die Verarbeitung mehrerer ROI-Eingaben eine Genauigkeit von 97,14 % bei der Klassifizierung von Alzheimer erreicht und damit den aktuellen Stand der Technik übertrifft.

Juan A. Castro-Silva, Maria N. Moreno Garcia, Diego H. Peluffo-Ordoñez2026-03-03💻 cs

Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation

Diese Arbeit stellt mit M-JudgeBench ein zehndimensionales, kapazitätsorientiertes Benchmark zur umfassenden Bewertung von Multimodal-LLMs als Richter vor und schlägt das Daten-Generierungs-Framework Judge-MCTS vor, um durch trainierte Modelle wie M-Judger die Zuverlässigkeit und Leistungsfähigkeit von Bewertungssystemen signifikant zu verbessern.

Zeyu Chen, Huanjin Yao, Ziwang Zhao + 1 more2026-03-03🤖 cs.AI

Weakly Supervised Video Anomaly Detection with Anomaly-Connected Components and Intention Reasoning

Das Paper stellt LAS-VAD vor, einen neuartigen Rahmen für die schwach überwachte Videoanomalieerkennung, der durch die Kombination von Anomalie-vernetzten Komponenten, Intentionserkennung und Attributinformationen die semantische Unterscheidung zwischen normalen und anomalen Ereignissen verbessert und damit den aktuellen Stand der Technik auf Benchmark-Datensätzen übertrifft.

Yu Wang, Shengjie Zhao2026-03-03💻 cs

Geometry OR Tracker: Universal Geometric Operating Room Tracking

Der „Geometry OR Tracker" ist eine zweistufige Pipeline, die durch eine metrische Geometriekorrektur unzuverlässige Kamerakalibrierungen in Operationssälen ausgleicht, um eine konsistente globale Weltreferenz zu schaffen und damit die Genauigkeit der 3D-Verfolgung von Chirurgen und Instrumenten signifikant zu verbessern.

Yihua Shao, Kang Chen, Feng Xue + 6 more2026-03-03🤖 cs.AI

MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

Die Arbeit stellt MIDAS vor, ein Multimodal-Jailbreak-Framework, das schädliche Semantik in mehrere Bilder zerlegt und durch cross-image-Reasoning rekonstruiert, um Sicherheitsmechanismen von Multimodal Large Language Models zu umgehen und dabei eine durchschnittliche Erfolgsrate von 81,46 % bei geschlossenen Modellen zu erreichen.

Yilian Liu, Xiaojun Jia, Guoshun Nan + 6 more2026-03-03🤖 cs.AI

Decoupling Stability and Plasticity for Multi-Modal Test-Time Adaptation

Die Arbeit stellt DASP vor, ein neuartiges Diagnose-und-Minderungs-Framework für die multimodale Testzeit-Adaptation, das durch die Ausnutzung interdimensionaler Redundanz und eine asymmetrische Strategie mit entkoppelten stabilen und plastischen Komponenten negative Übertragung sowie katastrophales Vergessen effektiv verhindert und so den aktuellen Stand der Technik übertrifft.

Yongbo He, Zirun Guo, Tao Jin2026-03-03🤖 cs.AI

MicroVerse: A Preliminary Exploration Toward a Micro-World Simulation

Das Paper stellt MicroVerse vor, ein auf einem neuartigen Expertendatensatz trainiertes Videogenerierungsmodell, das zusammen mit dem Benchmark MicroWorldBench den ersten systematischen Ansatz für realistische Mikrowelt-Simulationen in Bereichen wie Biomedizin und Bildung ermöglicht.

Rongsheng Wang, Minghao Wu, Hongru Zhou + 4 more2026-03-03🤖 cs.AI

LangGap: Diagnosing and Closing the Language Gap in Vision-Language-Action Models

Die Arbeit stellt mit LangGap einen neuen Benchmark vor, der aufdeckt, dass aktuelle Vision-Language-Action-Modelle Sprachanweisungen oft ignorieren, und zeigt, dass selbst gezielte Daten-Augmentierung die grundlegende Unfähigkeit dieser Modelle, semantisch vielfältige Anweisungen zu verstehen, nicht vollständig beheben kann.

Yuchen Hou, Lin Zhao2026-03-03💬 cs.CL

UNICBench: UNIfied Counting Benchmark for MLLM

Die Arbeit stellt UNICBench vor, ein einheitliches Benchmark und Evaluierungstoolkit für multimodale Large Language Models, das erstmals das Zählen über Bilder, Texte und Audiodateien hinweg mit präzisen Ground-Truth-Daten und einer standardisierten Evaluierungsprotokoll rigoros bewertet und dabei signifikante Lücken in der reasoning-Fähigkeit aktueller Modelle aufzeigt.

Chenggang Rong, Tao Han, Zhiyuan Zhao + 5 more2026-03-03💻 cs

Data-Centric Benchmark for Label Noise Estimation and Ranking in Remote Sensing Image Segmentation

Diese Arbeit stellt einen datenzentrischen Benchmark, einen neuen öffentlichen Datensatz sowie zwei innovative Methoden vor, die auf Modellunsicherheit, Vorhersagekonsistenz und Repräsentationsanalyse basieren, um Rauschen in den Labels von Fernerkundungsbildern für die semantische Segmentierung effektiv zu identifizieren, zu quantifizieren und zu bewerten.

Keiller Nogueira, Codrut-Andrei Diaconu, Dávid Kerekes + 9 more2026-03-03💻 cs

IdGlow: Dynamic Identity Modulation for Multi-Subject Generation

Die Arbeit stellt IdGlow vor, ein maskenfreies, zweistufiges Framework auf Basis von Flow-Matching-Modellen, das durch adaptive Zeitplanungsstrategien, VLM-gestützte Prompt-Synthese und Direct Preference Optimization die Stabilitäts-Plastizitäts-Dilemma bei der multi-subjektiven Bildgenerierung löst und gleichzeitig hohe Identitätstreue mit ästhetischer Kohärenz vereint.

Honghao Cai, Xiangyuan Wang, Yunhao Bai + 10 more2026-03-03🤖 cs.AI

Linking Modality Isolation in Heterogeneous Collaborative Perception

Der Paper stellt CodeAlign vor, ein effizientes Framework zur Überbrückung von Modality-Isolation in heterogener kollaborativer Wahrnehmung, das durch eine co-occurrence-freie Feature-Code-Feature-Übersetzung mittels Codebooks eine überlegene Leistung bei deutlich reduzierten Parametern und Kommunikationskosten erzielt.

Changxing Liu, Zichen Chao, Siheng Chen2026-03-03💻 cs

Exploring Spatiotemporal Feature Propagation for Video-Level Compressive Spectral Reconstruction: Dataset, Model and Benchmark

Diese Arbeit stellt den ersten hochwertigen dynamischen Hyperspektral-Datensatz (DynaSpec) vor, entwickelt das effiziente Propagation-Guided Spectral Video Reconstruction Transformer (PG-SVRT) zur Verbesserung der räumlich-spektralen und zeitlichen Konsistenz bei der rekonstruktiven Videobearbeitung und etabliert ein umfassendes Benchmark für die komprimierte spektrale Bildgebung.

Lijing Cai, Zhan Shi, Chenglong Huang + 6 more2026-03-03💻 cs

Exploring 3D Dataset Pruning

Diese Arbeit stellt einen neuartigen Ansatz für das Pruning von 3D-Datensätzen vor, der durch repräsentationsbewusste Teilmengenauswahl mit klassenspezifischen Quoten und prior-invarianter Lehrersupervision die inhärenten Zielkonflikte zwischen Gesamtgenauigkeit und mittlerer Genauigkeit bei langschwanzigen Klassenverteilungen effektiv auflöst.

Xiaohan Zhao, Xinyi Shang, Jiacheng Liu + 1 more2026-03-03🤖 cs.LG

RC-GeoCP: Geometric Consensus for Radar-Camera Collaborative Perception

Die Arbeit stellt RC-GeoCP vor, das erste Framework für die kollaborative Wahrnehmung durch Fusion von 4D-Radar und Kameras, das mittels geometrischer Konsensbildung, unsicherheitsbewusster Kommunikation und eines konsensgesteuerten Assemblers eine präzise Szenenverständnis mit reduziertem Kommunikationsaufwand ermöglicht.

Xiaokai Bai, Lianqing Zheng, Runwei Guan + 2 more2026-03-03💻 cs

Stateful Cross-layer Vision Modulation

Die Arbeit stellt SCVM vor, einen neuartigen visuellen Rahmen, der durch einen rekursiv aktualisierten cross-layer-Speicher und eine schichtweise Feedback-Modulation die Darstellungsentwicklung steuert, um feingranulare Details zu bewahren und die Leistung multimodaler Sprachmodelle ohne zusätzliche Token, Encoder oder Anpassungen des Sprachmodells zu verbessern.

Ying Liu, Yudong Han, Kean Shi + 1 more2026-03-03💻 cs

Act Like a Pathologist: Tissue-Aware Whole Slide Image Reasoning

Die Arbeit stellt HistoSelect vor, ein effizientes, fragegesteuertes Framework für die Analyse gigapixelgroßer pathologischer Ganzschnittbilder, das durch eine zweistufige, gewebebewusste Selektion relevanter Bildbereiche die Token-Nutzung um 70 % reduziert und gleichzeitig die Genauigkeit sowie die Interpretierbarkeit von Frage-Antwort-Aufgaben verbessert.

Wentao Huang, Weimin Lyu, Peiliang Lou + 8 more2026-03-03💻 cs

Direct low-field MRI super-resolution using undersampled k-space

Diese Arbeit stellt ein neuartiges Framework vor, das mithilfe eines k-Raum-Dual-Channel-U-Net direkt aus unterabgetastetem k-Raum-Daten von Low-Field-MR-Scans hochaufgelöste Bilder rekonstruiert und dabei die Bildqualität voll abgetasteter Aufnahmen erreicht sowie räumliche Nachverarbeitungsmethoden übertrifft.

Daniel Tweneboah Anyimadu, Mohammed M. Abdelsamea, Ahmed Karam Eldaly2026-03-03💻 cs

← Zurück Weiter →