cs.CV Arbeiten | Gist.Science

Hierarchical Classification for Improved Histopathology Image Analysis

Die Studie stellt HiClass vor, ein hierarchisches Klassifizierungsframework für die Histopathologie, das durch bidirektionale Feature-Integration und maßgeschneiderte Verlustfunktionen die diagnostische Genauigkeit bei der Analyse von Ganzschnittbildern verbessert, indem es sowohl grobe als auch feine Klassenbeziehungen nutzt.

Keunho Byeon, Jinsol Song, Seong Min Hong + 2 more2026-03-03💻 cs

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

Diese Studie stellt mit dem Werkzeug EmbedLens fest, dass Multimodale Large Language Models (MLLMs) eine ausgeprägte semantische Spärlichkeit aufweisen, bei der nur etwa 60 % der visuellen Tokens („alive") relevante Bildinformationen tragen, wodurch die meisten internen visuellen Berechnungen als redundant entlarvt werden und eine effizientere Architektur durch Token-Pruning sowie die direkte Injektion in mittlere LLM-Schichten ermöglicht wird.

Yingqi Fan, Junlong Tong, Anhao Zhao + 1 more2026-03-03🤖 cs.AI

Multimodal Adaptive Retrieval Augmented Generation through Internal Representation Learning

Die Arbeit stellt MMA-RAG vor, ein multimodales System, das durch die Analyse interner Repräsentationen dynamisch entscheidet, wann externe Wissensabrufe zur Reduzierung von Halluzinationen in der Visual Question Answering integriert werden sollten, und dadurch die Antwortgenauigkeit auf mehreren Datensätzen signifikant verbessert.

Ruoshuang Du, Xin Sun, Qiang Liu + 4 more2026-03-03🤖 cs.LG

MLLM-4D: Towards Visual-based Spatial-Temporal Intelligence

Die Arbeit stellt MLLM-4D vor, ein Framework, das durch eine kosteneffiziente Datenerstellung und eine spezielle Nachtrainierungsstrategie mit GRPO und räumlich-zeitlichem Chain-of-Thought die Fähigkeit multimodaler Großsprachenmodelle verbessert, 3D-Räume über die Zeit ausschließlich aus 2D-RGB-Bildern zu verstehen und zu schlussfolgern.

Xingyilang Yin, Chengzhengxu Li, Jiahao Chang + 2 more2026-03-03💻 cs

Vision-TTT: Efficient and Expressive Visual Representation Learning with Test-Time Training

Das Paper stellt Vision-TTT vor, eine effiziente und ausdrucksstarke visuelle Repräsentationsmethode, die Test-Time Training mit bidirektionalen Scans und Conv2d-Modulen kombiniert, um die quadratische Komplexität von Vision Transformern zu überwinden und dabei auf ImageNet hohe Genauigkeit bei deutlich reduziertem Rechenaufwand und Speicherbedarf zu erreichen.

Quan Kong, Yanru Xiao, Yuhao Shen + 1 more2026-03-03💻 cs

Jano: Adaptive Diffusion Generation with Early-stage Convergence Awareness

Das Paper stellt Jano vor, ein training-freies Framework für Diffusionsmodelle, das durch die Erkennung heterogener Konvergenzmuster in frühen Denoising-Schritten und eine adaptive Token-Scheduling-Strategie die Recheneffizienz um das 2- bis 2,4-fache steigert, ohne die Generierungsqualität zu beeinträchtigen.

Yuyang Chen, Linqian Zeng, Yijin ZHou + 2 more2026-03-03💻 cs

Mesh-Pro: Asynchronous Advantage-guided Ranking Preference Optimization for Artist-style Quadrilateral Mesh Generation

Die Arbeit stellt Mesh-Pro vor, ein asynchrones Reinforcement-Learning-Framework mit einem neuartigen ARPO-Algorithmus und einer diagonalbewussten Tokenisierung, das die Trainingsgeschwindigkeit und die Generierungsqualität von künstlerischen quadratischen Meshes im Vergleich zu bestehenden Methoden signifikant verbessert.

Zhen Zhou, Jian Liu, Biwen Lei + 10 more2026-03-03💻 cs

TP-Spikformer: Token Pruned Spiking Transformer

Die Arbeit stellt TP-Spikformer vor, eine effiziente Token-Pruning-Methode für Spiking Transformer, die durch ein heuristisches Kriterium zur Erhaltung räumlich-zeitlicher Informationen und eine Block-Level-Frühstopstrategie den Rechen- und Speicherbedarf reduziert, ohne die Genauigkeit zu beeinträchtigen und dabei trainingsfrei funktioniert.

Wenjie Wei, Xiaolong Zhou, Malu Zhang + 8 more2026-03-03💻 cs

CaptionFool: Universal Image Captioning Model Attacks

Die Studie stellt CaptionFool vor, einen universellen adversarialen Angriff auf Bildbeschreibungsmodelle, der durch die Manipulation weniger Bildpatches eine hohe Erfolgsrate bei der Erzeugung beliebiger, einschließlich beleidigender, Zielbeschreibungen erzielt und damit kritische Sicherheitslücken in Vision-Sprach-Modellen aufzeigt.

Swapnil Parekh2026-03-03🤖 cs.AI

RAFM: Retrieval-Augmented Flow Matching for Unpaired CBCT-to-CT Translation

Die vorgestellte Arbeit stellt RAFM vor, eine Methode zur unpaarigen CBCT-zu-CT-Übersetzung in der medizinischen Bildgebung, die durch den Einsatz von Retrieval-verstärktem Flow Matching und einem globalen CT-Speicherbank die Stabilität des Trainings verbessert und damit die Qualität synthetischer CT-Bilder für die Strahlentherapie signifikant steigert.

Xianhao Zhou, Jianghao Wu, Lanfeng Zhong + 4 more2026-03-03💻 cs

Multiple Inputs and Mixwd data for Alzheimer's Disease Classification Based on 3D Vision Transformer

Diese Studie stellt die MIMD-3DVT-Methode vor, einen neuartigen 3D-Vision-Transformer, der durch die Integration von gemischten Daten (soziodemografische Faktoren, kognitive Tests und 3D-MRT-Bilder) sowie die Verarbeitung mehrerer ROI-Eingaben eine Genauigkeit von 97,14 % bei der Klassifizierung von Alzheimer erreicht und damit den aktuellen Stand der Technik übertrifft.

Juan A. Castro-Silva, Maria N. Moreno Garcia, Diego H. Peluffo-Ordoñez2026-03-03💻 cs

Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation

Diese Arbeit stellt mit M-JudgeBench ein zehndimensionales, kapazitätsorientiertes Benchmark zur umfassenden Bewertung von Multimodal-LLMs als Richter vor und schlägt das Daten-Generierungs-Framework Judge-MCTS vor, um durch trainierte Modelle wie M-Judger die Zuverlässigkeit und Leistungsfähigkeit von Bewertungssystemen signifikant zu verbessern.

Zeyu Chen, Huanjin Yao, Ziwang Zhao + 1 more2026-03-03🤖 cs.AI

Weakly Supervised Video Anomaly Detection with Anomaly-Connected Components and Intention Reasoning

Das Paper stellt LAS-VAD vor, einen neuartigen Rahmen für die schwach überwachte Videoanomalieerkennung, der durch die Kombination von Anomalie-vernetzten Komponenten, Intentionserkennung und Attributinformationen die semantische Unterscheidung zwischen normalen und anomalen Ereignissen verbessert und damit den aktuellen Stand der Technik auf Benchmark-Datensätzen übertrifft.

Yu Wang, Shengjie Zhao2026-03-03💻 cs

Geometry OR Tracker: Universal Geometric Operating Room Tracking

Der „Geometry OR Tracker" ist eine zweistufige Pipeline, die durch eine metrische Geometriekorrektur unzuverlässige Kamerakalibrierungen in Operationssälen ausgleicht, um eine konsistente globale Weltreferenz zu schaffen und damit die Genauigkeit der 3D-Verfolgung von Chirurgen und Instrumenten signifikant zu verbessern.

Yihua Shao, Kang Chen, Feng Xue + 6 more2026-03-03🤖 cs.AI

MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

Die Arbeit stellt MIDAS vor, ein Multimodal-Jailbreak-Framework, das schädliche Semantik in mehrere Bilder zerlegt und durch cross-image-Reasoning rekonstruiert, um Sicherheitsmechanismen von Multimodal Large Language Models zu umgehen und dabei eine durchschnittliche Erfolgsrate von 81,46 % bei geschlossenen Modellen zu erreichen.

Yilian Liu, Xiaojun Jia, Guoshun Nan + 6 more2026-03-03🤖 cs.AI

Decoupling Stability and Plasticity for Multi-Modal Test-Time Adaptation

Die Arbeit stellt DASP vor, ein neuartiges Diagnose-und-Minderungs-Framework für die multimodale Testzeit-Adaptation, das durch die Ausnutzung interdimensionaler Redundanz und eine asymmetrische Strategie mit entkoppelten stabilen und plastischen Komponenten negative Übertragung sowie katastrophales Vergessen effektiv verhindert und so den aktuellen Stand der Technik übertrifft.

Yongbo He, Zirun Guo, Tao Jin2026-03-03🤖 cs.AI

MicroVerse: A Preliminary Exploration Toward a Micro-World Simulation

Das Paper stellt MicroVerse vor, ein auf einem neuartigen Expertendatensatz trainiertes Videogenerierungsmodell, das zusammen mit dem Benchmark MicroWorldBench den ersten systematischen Ansatz für realistische Mikrowelt-Simulationen in Bereichen wie Biomedizin und Bildung ermöglicht.

Rongsheng Wang, Minghao Wu, Hongru Zhou + 4 more2026-03-03🤖 cs.AI

LangGap: Diagnosing and Closing the Language Gap in Vision-Language-Action Models

Die Arbeit stellt mit LangGap einen neuen Benchmark vor, der aufdeckt, dass aktuelle Vision-Language-Action-Modelle Sprachanweisungen oft ignorieren, und zeigt, dass selbst gezielte Daten-Augmentierung die grundlegende Unfähigkeit dieser Modelle, semantisch vielfältige Anweisungen zu verstehen, nicht vollständig beheben kann.

Yuchen Hou, Lin Zhao2026-03-03💬 cs.CL

UNICBench: UNIfied Counting Benchmark for MLLM

Die Arbeit stellt UNICBench vor, ein einheitliches Benchmark und Evaluierungstoolkit für multimodale Large Language Models, das erstmals das Zählen über Bilder, Texte und Audiodateien hinweg mit präzisen Ground-Truth-Daten und einer standardisierten Evaluierungsprotokoll rigoros bewertet und dabei signifikante Lücken in der reasoning-Fähigkeit aktueller Modelle aufzeigt.

Chenggang Rong, Tao Han, Zhiyuan Zhao + 5 more2026-03-03💻 cs

Data-Centric Benchmark for Label Noise Estimation and Ranking in Remote Sensing Image Segmentation

Diese Arbeit stellt einen datenzentrischen Benchmark, einen neuen öffentlichen Datensatz sowie zwei innovative Methoden vor, die auf Modellunsicherheit, Vorhersagekonsistenz und Repräsentationsanalyse basieren, um Rauschen in den Labels von Fernerkundungsbildern für die semantische Segmentierung effektiv zu identifizieren, zu quantifizieren und zu bewerten.

Keiller Nogueira, Codrut-Andrei Diaconu, Dávid Kerekes + 9 more2026-03-03💻 cs

← Zurück Weiter →