cs.CV Arbeiten | Gist.Science

Counterfactual Explanations on Robust Perceptual Geodesics

Die Arbeit stellt Perceptual Counterfactual Geodesics (PCG) vor, eine Methode, die mithilfe einer auf robusten visuellen Merkmalen basierenden riemannschen Metrik semantisch gültige und auf dem Datenmanifold liegende kontrafaktische Erklärungen generiert, um die durch herkömmliche flache Geometrien verursachten Artefakte und adversarialen Zusammenbrüche zu überwinden.

Eslam Zaher, Maciej Trzaskowski, Quan Nguyen + 1 more2026-03-03🤖 cs.LG

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Das Paper stellt Vision-DeepResearch vor, ein multimodales Deep-Research-Framework, das durch mehrstufige, mehrdimensionale Suchverfahren und Reinforcement-Learning-Training die Fähigkeit von Large Language Models zur Bewältigung komplexer visueller und textueller Recherchen unter realen Bedingungen mit hohem Rauschen signifikant verbessert und dabei bestehende State-of-the-Art-Modelle sowie Workflows führender kommerzieller KI-Systeme übertrifft.

Wenxuan Huang, Yu Zeng, Qiuchen Wang + 13 more2026-03-03🤖 cs.AI

When Anomalies Depend on Context: Learning Conditional Compatibility for Anomaly Detection

Die Arbeit stellt mit CAAD-3K ein neues Benchmark und einen Rahmenwerk zur bedingten Kompatibilitätslernen vor, das Anomalien im visuellen Bereich als kontextabhängige Inkompatibilität zwischen Objekt und Umgebung modelliert und so bestehende Methoden auf mehreren Datensätzen übertrifft.

Shashank Mishra, Didier Stricker, Jason Rambach2026-03-03🤖 cs.LG

Unveiling the Cognitive Compass: Theory-of-Mind-Guided Multimodal Emotion Reasoning

Die Arbeit stellt HitEmotion, einen hierarchischen Benchmark, sowie einen Theorie-der-Mind-gesteuerten Schlussfolgerungsansatz und die TMPO-Verstärkungslernmethode vor, um die kognitionsbasierte emotionale Intelligenz multimodaler Sprachmodelle zu diagnostizieren und zu verbessern.

Meng Luo, Bobo Li, Shanqing Xu + 8 more2026-03-03💻 cs

Gradient-Aligned Calibration for Post-Training Quantization of Diffusion Models

Dieses Paper stellt eine neuartige Post-Training-Quantisierungsmethode für Diffusionsmodelle vor, die durch das Lernen optimaler Gewichte für Kalibrierungsstichproben die Gradienten über verschiedene Zeitschritte hinweg ausrichtet und so die Leistungsfähigkeit im Vergleich zu bestehenden Ansätzen verbessert.

Dung Anh Hoang, Cuong Pham anh Trung Le, Jianfei Cai + 1 more2026-03-03🤖 cs.LG

Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning

Die Arbeit stellt CaCoVID vor, einen neuartigen, verstärkungslernbasierten Algorithmus zur contributionsbewussten Token-Kompression, der die Effizienz von Video-LLMs durch die aktive Optimierung der Token-Auswahl für korrekte Vorhersagen verbessert.

Yinchao Ma, Qiang Zhou, Zhibin Wang + 4 more2026-03-03🤖 cs.AI

CloDS: Visual-Only Unsupervised Cloth Dynamics Learning in Unknown Conditions

Die Arbeit stellt CloDS vor, ein unüberwachtes Lernframework, das mittels eines dreistufigen Pipelines und einer dualen Positions-Opazitäts-Modulation auf Basis von Gaussian Splatting die Dynamik von Stoffen ausschließlich aus multiview-visuellen Beobachtungen in unbekannten Bedingungen modelliert.

Yuliang Zhan, Jian Li, Wenbing Huang + 3 more2026-03-03🤖 cs.AI

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Die Arbeit stellt das Vision-DeepResearch-Benchmark (VDR-Bench) vor, eine umfassend kuratierte Datensammlung aus 2.000 VQA-Instanzen, die bestehende Mängel in der Bewertung visueller und textueller Suchfähigkeiten von Multimodalen Large Language Models adressiert, und schlägt zudem einen effektiven Multi-Round-Cropped-Suchworkflow zur Verbesserung der visuellen Retrieval-Leistung vor.

Yu Zeng, Wenxuan Huang, Zhen Fang + 14 more2026-03-03💬 cs.CL

Investigating Disability Representations in Text-to-Image Models

Diese Studie untersucht die Darstellung von Menschen mit Behinderungen in Text-zu-Bild-Modellen wie Stable Diffusion XL und DALL-E 3, identifiziert anhaltende Ungleichgewichte in der Repräsentation und unterstreicht die Notwendigkeit kontinuierlicher Evaluierung und Verbesserung für inklusivere Darstellungen.

Yang Tian, Yu Fan, Liudmila Zavolokina + 1 more2026-03-03💬 cs.CL

RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing

Die Arbeit stellt RFDM vor, ein effizientes, kausales Diffusionsmodell für die videobasierte Bearbeitung, das durch die Vorhersage von Residuen zwischen aufeinanderfolgenden Frames variable Eingabelängen unterstützt und dabei die Rechenkosten von Bildmodellen beibehält.

Mohammadreza Salehi, Mehdi Noroozi, Luca Morreale + 4 more2026-03-03💻 cs

Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

Eine vergleichende Benchmark-Studie zeigt, dass zwar aktuelle Bild-zu-3D-Modelle wie SAM3D die topologische Ähnlichkeit medizinischer Strukturen besser erfassen als andere, jedoch aufgrund der inhärenten Tiefenambiguität bei einzelnen Schnittbildern keine zuverlässige Volumenerstellung möglich ist, was eine domainspezifische Anpassung für die medizinische 3D-Rekonstruktion zwingend erforderlich macht.

Yan Luo, Advaith Ravishankar, Serena Liu + 2 more2026-03-03💻 cs

EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation

Das Paper stellt EchoTorrent vor, ein neuartiges Schema mit vier Kernkomponenten – Multi-Teacher-Training, adaptive CFG-Kalibrierung, Hybrid Long-Tail-Forcing und VAE-Decoder-Verfeinerung –, das Latenz und zeitliche Instabilität bei der multimodalen Video-Streaming-Generierung überwindet und gleichzeitig hohe Bildqualität sowie präzise Audio-Lippen-Synchronisation gewährleistet.

Rang Meng, Yingjie Yin, Yuming Li + 1 more2026-03-03💻 cs

Deformation-Free Cross-Domain Image Registration via Position-Encoded Temporal Attention

Die Arbeit stellt GPEReg-Net vor, ein deformationsfreies Framework für die bildübergreifende Registrierung, das durch eine Faktorisierung in szenische Struktur und Erscheinung sowie eine positionskodierte zeitliche Aufmerksamkeit State-of-the-Art-Ergebnisse auf Benchmark-Datensätzen erzielt.

Yiwen Wang, Jiahao Qin2026-03-03🤖 cs.AI

OmniCT: Towards a Unified Slice-Volume LVLM for Comprehensive CT Analysis

Die Arbeit stellt OmniCT vor, ein einheitliches Slice-Volume-LVLM, das durch räumliche Konsistenz, organbezogene semantische Verbesserungen und einen umfassenden neuen Datensatz die Lücke zwischen schnittbasierter Detailanalyse und volumetrischem räumlichem Verständnis in der CT-Bildgebung schließt.

Tianwei Lin, Zhongwei Qiu, Wenqiao Zhang + 12 more2026-03-03🤖 cs.AI

Prefer-DAS: Learning from Local Preferences and Sparse Prompts for Domain Adaptive Segmentation of Electron Microscopy

Die Studie stellt Prefer-DAS vor, ein neuartiges, promptbasiertes Modell für die domänenadaptive Segmentierung in der Elektronenmikroskopie, das durch die Integration von lokalen menschlichen Präferenzen und spärlichen Annotationen eine überlegene Leistung sowohl im automatisierten als auch im interaktiven Modus im Vergleich zu bestehenden UDA- und SAM-ähnlichen Methoden erzielt.

Jiabao Chen, Shan Xiong, Jialin Peng2026-03-03💻 cs

Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

Das Paper stellt Hepato-LLaVA vor, ein spezialisiertes multimodales Large Language Model mit einem neuartigen Sparse Topo-Pack Attention-Mechanismus und dem zugehörigen HepatoPathoVQA-Datensatz, das durch die effiziente Aggregation lokaler diagnostischer Beweise bei gleichzeitiger Bewahrung des globalen Kontexts den aktuellen Stand der Technik bei der Analyse von Leberkrebs in Ganzschnittbildern übertrifft.

Yuxuan Yang, Zhonghao Yan, Yi Zhang + 6 more2026-03-03💻 cs

Leveraging Causal Reasoning Method for Explaining Medical Image Segmentation Models

Diese Arbeit stellt eine neue Erklärungsmethode für medizinische Bildsegmentierung vor, die auf kausaler Inferenz und dem durchschnittlichen Behandlungseffekt (ATE) basiert, um die Zuverlässigkeit von Deep-Learning-Modellen zu erhöhen und deren unterschiedliche Wahrnehmungsstrategien aufzudecken.

Limai Jiang, Ruitao Xie, Bokai Yang + 6 more2026-03-03💻 cs

Dataset Color Quantization: A Training-Oriented Framework for Dataset-Level Compression

Die Arbeit stellt Dataset Color Quantization (DCQ) vor, ein einheitliches Framework zur komprimierten Speicherung von Bilddatensätzen, das durch die Reduzierung von Farb-Redundanzen bei gleichzeitiger Bewahrung semantisch relevanter Informationen die Trainingsleistung in ressourcenbeschränkten Umgebungen verbessert.

Chenyue Yu, Lingao Xiao, Jinhong Deng + 2 more2026-03-03🤖 cs.AI

VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

Diese Arbeit stellt „Visual Instruction Injection" (VII) vor, einen trainingfreien und übertragbaren Jailbreaking-Ansatz, der schädliche Absichten in Bild-zu-Video-Generierungsmodelle einschleust, indem er unsichere Textprompts als harmlose visuelle Anweisungen in Referenzbildern tarnt und dabei bei vier führenden kommerziellen Modellen eine Erfolgsrate von bis zu 83,5 % erreicht.

Bowen Zheng, Yongli Xiang, Ziming Hong + 4 more2026-03-03💻 cs

HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles

HorizonForge ist ein einheitliches Framework, das fotorealistische und präzise steuerbare Szenen für das autonome Fahren durch die Kombination von bearbeitbaren Gaussian Splats und Meshes mit einem rauschbewussten Video-Diffusionsprozess ermöglicht und dabei sowohl beliebige Trajektorien als auch Fahrzeuge integriert.

Yifan Wang, Francesco Pittaluga, Zaid Tasneem + 3 more2026-03-03💻 cs

← Zurück Weiter →