Counterfactual Explanations on Robust Perceptual Geodesics

Die Arbeit stellt Perceptual Counterfactual Geodesics (PCG) vor, eine Methode, die mithilfe einer auf robusten visuellen Merkmalen basierenden riemannschen Metrik semantisch gültige und auf dem Datenmanifold liegende kontrafaktische Erklärungen generiert, um die durch herkömmliche flache Geometrien verursachten Artefakte und adversarialen Zusammenbrüche zu überwinden.

Eslam Zaher, Maciej Trzaskowski, Quan Nguyen + 1 more2026-03-03🤖 cs.LG

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Das Paper stellt Vision-DeepResearch vor, ein multimodales Deep-Research-Framework, das durch mehrstufige, mehrdimensionale Suchverfahren und Reinforcement-Learning-Training die Fähigkeit von Large Language Models zur Bewältigung komplexer visueller und textueller Recherchen unter realen Bedingungen mit hohem Rauschen signifikant verbessert und dabei bestehende State-of-the-Art-Modelle sowie Workflows führender kommerzieller KI-Systeme übertrifft.

Wenxuan Huang, Yu Zeng, Qiuchen Wang + 13 more2026-03-03🤖 cs.AI

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Die Arbeit stellt das Vision-DeepResearch-Benchmark (VDR-Bench) vor, eine umfassend kuratierte Datensammlung aus 2.000 VQA-Instanzen, die bestehende Mängel in der Bewertung visueller und textueller Suchfähigkeiten von Multimodalen Large Language Models adressiert, und schlägt zudem einen effektiven Multi-Round-Cropped-Suchworkflow zur Verbesserung der visuellen Retrieval-Leistung vor.

Yu Zeng, Wenxuan Huang, Zhen Fang + 14 more2026-03-03💬 cs.CL

Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

Eine vergleichende Benchmark-Studie zeigt, dass zwar aktuelle Bild-zu-3D-Modelle wie SAM3D die topologische Ähnlichkeit medizinischer Strukturen besser erfassen als andere, jedoch aufgrund der inhärenten Tiefenambiguität bei einzelnen Schnittbildern keine zuverlässige Volumenerstellung möglich ist, was eine domainspezifische Anpassung für die medizinische 3D-Rekonstruktion zwingend erforderlich macht.

Yan Luo, Advaith Ravishankar, Serena Liu + 2 more2026-03-03💻 cs

EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation

Das Paper stellt EchoTorrent vor, ein neuartiges Schema mit vier Kernkomponenten – Multi-Teacher-Training, adaptive CFG-Kalibrierung, Hybrid Long-Tail-Forcing und VAE-Decoder-Verfeinerung –, das Latenz und zeitliche Instabilität bei der multimodalen Video-Streaming-Generierung überwindet und gleichzeitig hohe Bildqualität sowie präzise Audio-Lippen-Synchronisation gewährleistet.

Rang Meng, Yingjie Yin, Yuming Li + 1 more2026-03-03💻 cs

Prefer-DAS: Learning from Local Preferences and Sparse Prompts for Domain Adaptive Segmentation of Electron Microscopy

Die Studie stellt Prefer-DAS vor, ein neuartiges, promptbasiertes Modell für die domänenadaptive Segmentierung in der Elektronenmikroskopie, das durch die Integration von lokalen menschlichen Präferenzen und spärlichen Annotationen eine überlegene Leistung sowohl im automatisierten als auch im interaktiven Modus im Vergleich zu bestehenden UDA- und SAM-ähnlichen Methoden erzielt.

Jiabao Chen, Shan Xiong, Jialin Peng2026-03-03💻 cs

Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

Das Paper stellt Hepato-LLaVA vor, ein spezialisiertes multimodales Large Language Model mit einem neuartigen Sparse Topo-Pack Attention-Mechanismus und dem zugehörigen HepatoPathoVQA-Datensatz, das durch die effiziente Aggregation lokaler diagnostischer Beweise bei gleichzeitiger Bewahrung des globalen Kontexts den aktuellen Stand der Technik bei der Analyse von Leberkrebs in Ganzschnittbildern übertrifft.

Yuxuan Yang, Zhonghao Yan, Yi Zhang + 6 more2026-03-03💻 cs

VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

Diese Arbeit stellt „Visual Instruction Injection" (VII) vor, einen trainingfreien und übertragbaren Jailbreaking-Ansatz, der schädliche Absichten in Bild-zu-Video-Generierungsmodelle einschleust, indem er unsichere Textprompts als harmlose visuelle Anweisungen in Referenzbildern tarnt und dabei bei vier führenden kommerziellen Modellen eine Erfolgsrate von bis zu 83,5 % erreicht.

Bowen Zheng, Yongli Xiang, Ziming Hong + 4 more2026-03-03💻 cs