Dynamic Multimodal Activation Steering for Hallucination Mitigation in Large Vision-Language Models

Die vorgestellte Arbeit stellt eine trainingsfreie Methode namens Dynamic Multimodal Activation Steering vor, die durch die dynamische, kontextabhängige Steuerung spezifischer Aufmerksamkeitsköpfe auf Basis von Wahrnehmungs- und Wahrheitsvektoren Halluzinationen in Large Vision-Language Models effektiv reduziert und dabei den aktuellen Stand der Technik übertrifft.

Jianghao Yin, Qin Chen, Kedi Chen + 3 more2026-02-26🤖 cs.AI

Learning spatially adaptive sparsity level maps for arbitrary convolutional dictionaries

Die vorgestellte Methode erweitert einen modellbasierten Rekonstruktionsansatz für Bildgebung, indem sie ein neuronales Netzwerk nutzt, um räumlich adaptive Sparsity-Level-Karten für beliebige Faltungs-Dictionaries zu lernen, was zu verbesserter Interpretierbarkeit, Filter-Permutations-Invarianz und größerer Robustheit gegenüber Datenverteilungsverschiebungen im Vergleich zu reinen Black-Box-Methoden führt.

Joshua Schulz, David Schote, Christoph Kolbitsch + 2 more2026-02-26⚡ eess

Assessing airborne laser scanning and aerial photogrammetry for deep learning-based stand delineation

Die Studie zeigt, dass ein auf Deep Learning basierendes Framework zur Waldbestandsabgrenzung sowohl mit ALS- als auch mit photogrammetrisch abgeleiteten Daten vergleichbar hohe Genauigkeiten erreicht und somit die Nutzung zeitlich abgestimmter, kosteneffizienter DAP-Daten für die Erstellung großer Trainingsdatensätze ermöglicht.

Håkon Næss Sandum, Hans Ole Ørka, Oliver Tomic + 1 more2026-02-26💻 cs

Innovative Tooth Segmentation Using Hierarchical Features and Bidirectional Sequence Modeling

Diese Arbeit stellt ein innovatives Verfahren zur Zahnssegmentierung vor, das durch einen dreistufigen Encoder mit hierarchischen Merkmalen und bidirektionale Sequenzmodellierung die Kontextwahrnehmung verbessert und gleichzeitig den rechenintensiven Overhead von Transformer-Architekturen vermeidet, was auf dem OralVision-Datensatz zu einer signifikanten Steigerung der Genauigkeit führt.

Xinxin Zhao, Jian Jiang, Yan Tian + 5 more2026-02-26💻 cs

LiREC-Net: A Target-Free and Learning-Based Network for LiDAR, RGB, and Event Calibration

Die Arbeit stellt LiREC-Net vor, ein zielloses, lernbasiertes Netzwerk, das im Gegensatz zu bestehenden bi-modalen Ansätzen LiDAR-, RGB- und Event-Daten in einem einheitlichen Framework gemeinsam kalibriert und dabei eine effiziente, geteilte LiDAR-Repräsentation nutzt, um eine präzise Multi-Sensor-Fusion für autonome Systeme zu ermöglichen.

Aditya Ranjan Dash, Ramy Battrawy, René Schuster + 1 more2026-02-26💻 cs

SAPNet++: Evolving Point-Prompted Instance Segmentation with Semantic and Spatial Awareness

Die Arbeit stellt SAPNet++ vor, ein Netzwerk zur instanzbasierten Segmentierung mit einzelnen Punkthinweisen, das durch semantische und räumliche Bewusstheit sowie neue Module wie S-MIL und Multi-level Affinity Refinement die Herausforderungen von Granularitätsambiguität und Grenzunsicherheit löst und die Segmentierungsleistung auf vier Datensätzen signifikant verbessert.

Zhaoyang Wei, Xumeng Han, Xuehui Yu + 4 more2026-02-26💻 cs

Beyond Static Artifacts: A Forensic Benchmark for Video Deepfake Reasoning in Vision Language Models

Die Arbeit stellt Forensic Answer-Questioning (FAQ) vor, ein umfassendes Benchmark- und Instruction-Tuning-Set, das Vision-Language-Modelle befähigt, durch eine dreistufige Hierarchie von der Gesichtswahrnehmung bis zur forensischen Schlussfolgerung zeitliche Inkonsistenzen in Video-Deepfakes effektiv zu erkennen und zu begründen.

Zheyuan Gu, Qingsong Zhao, Yusong Wang + 6 more2026-02-26🤖 cs.AI

XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression

XStreamVGGT ist ein tuning-freier Ansatz, der durch eine Kombination aus effizientem Pruning und dimensionsadaptiver Quantisierung den KV-Cache komprimiert, um die Speichereffizienz und Inferenzgeschwindigkeit von StreamVGGT für skalierbare Streaming-3D-Anwendungen drastisch zu verbessern, ohne dabei die Leistung signifikant zu beeinträchtigen.

Zunhai Su, Weihao Ye, Hansen Feng + 5 more2026-02-26💻 cs

StoryMovie: A Dataset for Semantic Alignment of Visual Stories with Movie Scripts and Subtitles

Die Arbeit stellt StoryMovie vor, einen Datensatz aus 1.757 visuellen Geschichten, die durch Synchronisation von Drehbüchern und Untertiteln semantisch ausgerichtet sind, und zeigt, dass das darauf trainierte Modell Storyteller3 die Dialogzuordnung und semantische Kohärenz im Vergleich zu rein visuell basierten Modellen signifikant verbessert.

Daniel Oliveira, David Martins de Matos2026-02-26🤖 cs.AI

Understanding Annotation Error Propagation and Learning an Adaptive Policy for Expert Intervention in Barrett's Video Segmentation

Die Studie stellt Learning-to-Re-Prompt (L2RP) vor, ein kostensensitives Framework, das durch die Analyse der Fehlerfortpflanzung bei verschiedenen Prompt-Typen eine adaptive Strategie zur gezielten Einbindung von Expertenwissen entwickelt, um die Genauigkeit und zeitliche Konsistenz der Segmentierung von Barrett-Ösophagus-Videos zu verbessern.

Lokesha Rasanjalee, Jin Lin Tan, Dileepa Pitawela + 2 more2026-02-26🤖 cs.AI