Beyond Static Artifacts: A Forensic Benchmark for Video Deepfake Reasoning in Vision Language Models

Die Arbeit stellt Forensic Answer-Questioning (FAQ) vor, ein umfassendes Benchmark- und Instruction-Tuning-Set, das Vision-Language-Modelle befähigt, durch eine dreistufige Hierarchie von der Gesichtswahrnehmung bis zur forensischen Schlussfolgerung zeitliche Inkonsistenzen in Video-Deepfakes effektiv zu erkennen und zu begründen.

Zheyuan Gu, Qingsong Zhao, Yusong Wang + 6 more2026-02-26🤖 cs.AI

XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression

XStreamVGGT ist ein tuning-freier Ansatz, der durch eine Kombination aus effizientem Pruning und dimensionsadaptiver Quantisierung den KV-Cache komprimiert, um die Speichereffizienz und Inferenzgeschwindigkeit von StreamVGGT für skalierbare Streaming-3D-Anwendungen drastisch zu verbessern, ohne dabei die Leistung signifikant zu beeinträchtigen.

Zunhai Su, Weihao Ye, Hansen Feng + 5 more2026-02-26💻 cs

StoryMovie: A Dataset for Semantic Alignment of Visual Stories with Movie Scripts and Subtitles

Die Arbeit stellt StoryMovie vor, einen Datensatz aus 1.757 visuellen Geschichten, die durch Synchronisation von Drehbüchern und Untertiteln semantisch ausgerichtet sind, und zeigt, dass das darauf trainierte Modell Storyteller3 die Dialogzuordnung und semantische Kohärenz im Vergleich zu rein visuell basierten Modellen signifikant verbessert.

Daniel Oliveira, David Martins de Matos2026-02-26🤖 cs.AI

Understanding Annotation Error Propagation and Learning an Adaptive Policy for Expert Intervention in Barrett's Video Segmentation

Die Studie stellt Learning-to-Re-Prompt (L2RP) vor, ein kostensensitives Framework, das durch die Analyse der Fehlerfortpflanzung bei verschiedenen Prompt-Typen eine adaptive Strategie zur gezielten Einbindung von Expertenwissen entwickelt, um die Genauigkeit und zeitliche Konsistenz der Segmentierung von Barrett-Ösophagus-Videos zu verbessern.

Lokesha Rasanjalee, Jin Lin Tan, Dileepa Pitawela + 2 more2026-02-26🤖 cs.AI

GFPL: Generative Federated Prototype Learning for Resource-Constrained and Data-Imbalanced Vision Task

Der vorgeschlagene GFPL-Rahmenwerk adressiert die Herausforderungen der Datenungleichgewichte und hohen Kommunikationskosten im Federated Learning durch eine generative Prototypenmethode auf Basis von Gaußschen Mischmodellen und eine Aggregationsstrategie, die die Modellgenauigkeit bei ressourcenbeschränkten visuellen Aufgaben signifikant verbessert.

Shiwei Lu, Yuhang He, Jiashuo Li + 2 more2026-02-26🤖 cs.LG

Geometry-as-context: Modulating Explicit 3D in Scene-consistent Video Generation to Geometry Context

Die Arbeit stellt „Geometry-as-context" vor, eine Methode zur generierung konsistenter 3D-Videos, die durch einen autoregressiven, kamera-gesteuerten Modellansatz mit einem neuartigen Kamera-Gated-Attention-Modul und einem Training mit zufälligem Abwurf geometrischer Kontexte die Fehlerakkumulation früherer Verfahren vermeidet und gleichzeitig präzise Kamerasteuerung sowie Szenenkonsistenz gewährleistet.

JiaKui Hu, Jialun Liu, Liying Yang + 7 more2026-02-26💻 cs

A Framework for Cross-Domain Generalization in Coronary Artery Calcium Scoring Across Gated and Non-Gated Computed Tomography

Die Studie stellt ein automatisiertes Framework namens CARD-ViT vor, das mithilfe von selbstüberwachtem Lernen ausschließlich auf EKG-getriggerten CT-Daten trainiert wurde und es ermöglicht, Koronarkalk-Scores zuverlässig sowohl auf EKG-getriggerten als auch auf nicht-getriggerten CT-Scans zu berechnen, wodurch eine skalierbare kardiovaskuläre Risikostratifizierung in der Routinebildgebung ohne zusätzliche Scans oder Annotationen möglich wird.

Mahmut S. Gokmen, Moneera N. Haque, Steve W. Leung + 6 more2026-02-26🤖 cs.AI

Directed Ordinal Diffusion Regularization for Progression-Aware Diabetic Retinopathy Grading

Die Arbeit stellt die Directed Ordinal Diffusion Regularization (D-ODR) vor, eine Methode, die durch die Modellierung des Merkmalsraums als gerichteter Fluss die biologische Einweg-Natur des Fortschreitens der diabetischen Retinopathie berücksichtigt und so die Genauigkeit der Schweregrad-Einstufung im Vergleich zu bestehenden ordinalen Regressionsansätzen verbessert.

Huangwei Chen, Junhao Jia, Ruocheng Li + 7 more2026-02-26💻 cs

MindDriver: Introducing Progressive Multimodal Reasoning for Autonomous Driving

Das Paper stellt MindDriver vor, ein progressives multimodales Reasoning-Framework, das Vision-Language-Modelle durch eine dreistufige menschliche Denkweise und ein verstärkendes Feinabstimmungsverfahren befähigt, die Lücke zwischen semantischem Verständnis und physikalischer Trajektorienplanung für autonomes Fahren zu schließen und dabei in offenen und geschlossenen Kreisläufen überlegene Ergebnisse erzielt.

Lingjun Zhang, Yujian Yuan, Changjie Wu + 7 more2026-02-26💻 cs

Global-Local Dual Perception for MLLMs in High-Resolution Text-Rich Image Translation

Die Arbeit stellt GLoTran vor, ein Framework für multimodale große Sprachmodelle, das durch eine globale-lokale Dual-Wahrnehmung und einen neuartigen Datensatz (GLoD) die Herausforderungen bei der Übersetzung textreicher Bilder in hoher Auflösung adressiert und so Vollständigkeit sowie Genauigkeit im Vergleich zu bestehenden Methoden signifikant verbessert.

Junxin Lu, Tengfei Song, Zhanglin Wu + 9 more2026-02-26💻 cs