On the Evaluation Protocol of Gesture Recognition for UAV-based Rescue Operation based on Deep Learning: A Subject-Independence Perspective

Diese Arbeit widerlegt die Validität des Evaluierungsprotokolls für die gestenbasierte UAV-Rescue-Operation von Liu und Szirányi, indem sie nachweist, dass die berichteten perfekten Genauigkeitswerte auf einem fehlerhaften, zufälligen Split auf Frame-Ebene beruhen, der zu Datenlecks führt und die Generalisierungsfähigkeit auf unbekannte Personen verschleiert.

Domonkos Varga2026-02-23💻 cs

TopoGate: Quality-Aware Topology-Stabilized Gated Fusion for Longitudinal Low-Dose CT New-Lesion Prediction

Das Paper stellt TopoGate vor, ein leichtgewichtiges, interpretierbares Modell, das durch eine qualitätsbewusste, gating-gesteuerte Fusion von CT-Aufnahmen und Subtraktionsbildern die Vorhersage neuer Läsionen in longitudinalen Niedrigdosis-CT-Follow-ups stabilisiert und dabei durch die Berücksichtigung von Bildqualität, Registrierung und topologischer Stabilität die Zuverlässigkeit im klinischen Einsatz erhöht.

Seungik Cho2026-02-23⚡ eess

Learning Compact Video Representations for Efficient Long-form Video Understanding in Large Multimodal Models

Diese Arbeit stellt einen neuartigen End-to-End-Ansatz für das Verständnis langer Videos in großen multimodalen Modellen vor, der durch einen informationsdichte-basierten adaptiven Sampler und einen autoencoder-basierten räumlich-zeitlichen Kompressor redundante Daten effizient reduziert und gleichzeitig wesentliche diskriminierende Informationen bewahrt.

Yuxiao Chen, Jue Wang, Zhikang Zhang + 8 more2026-02-23💻 cs

Understanding the Fine-Grained Knowledge Capabilities of Vision-Language Models

Die Studie zeigt, dass Vision-Language-Modelle bei feinabgestuften Klassifizierungsaufgaben hinterherhinken, wobei Verbesserungen des visuellen Encoders und des Vortrainings (insbesondere bei nicht eingefrorenen Sprachmodellgewichten) einen überproportionalen positiven Einfluss auf diese Fähigkeiten haben, während bessere Sprachmodelle alle Benchmarks nur gleichmäßig steigern.

Dhruba Ghosh, Yuhui Zhang, Ludwig Schmidt2026-02-23🤖 cs.AI

ROCKET: Residual-Oriented Multi-Layer Alignment for Spatially-Aware Vision-Language-Action Models

Das Paper stellt ROCKET vor, ein neuartiges Framework für residuenorientierte Multi-Layer-Alignment, das die räumliche Wahrnehmung von Vision-Language-Action-Modellen durch eine effiziente, gradientenkonfliktreduzierende Ausrichtung mehrerer Schichten mit einem 3D-Vision-Grundmodell erheblich verbessert und dabei nur einen Bruchteil der Rechenleistung benötigt.

Guoheng Sun, Tingting Du, Kaixi Feng + 6 more2026-02-23🤖 cs.AI

From Global Radiomics to Parametric Maps: A Unified Workflow Fusing Radiomics and Deep Learning for PDAC Detection

Diese Arbeit stellt einen einheitlichen Workflow vor, der handgefertigte Radiomics-Features auf globaler und voxelbasierter Ebene in ein nnUNet-Modell integriert, um die Detektion von Pankreaskarzinomen (PDAC) durch komplementäre Signale zu verbessern und dabei hohe Leistungswerte auf dem PANORAMA-Datensatz sowie in einem externen Kohortenvergleich zu erzielen.

Zengtian Deng, Yimeng He, Yu Shi + 4 more2026-02-23⚡ eess

MUOT_3M: A 3 Million Frame Multimodal Underwater Benchmark and the MUTrack Tracking Method

Die Studie stellt mit MUOT_3M das erste groß angelegte, multimodale Unterwasser-Objektverfolgungs-Benchmark mit 3 Millionen Bildern vor und entwickelt darauf aufbauend MUTrack, einen effizienten Tracker, der durch Wissensdistillation multimodales Wissen in ein unimodales Modell überträgt und dabei den aktuellen Stand der Technik in Genauigkeit und Geschwindigkeit übertrifft.

Ahsan Baidar Bakht, Mohamad Alansari, Muhayy Ud Din + 5 more2026-02-23💻 cs

Towards LLM-centric Affective Visual Customization via Efficient and Precise Emotion Manipulating

Diese Arbeit stellt die LLM-zentrierte Aufgabe der affektiven visuellen Anpassung (L-AVC) vor und schlägt mit dem EPEM-Ansatz eine effiziente und präzise Methode zur Manipulation subjektiver Emotionen in Bildern vor, die durch die Module EIC und PER sowohl die emotionale Umwandlung als auch den Erhalt emotionsneutraler Inhalte sicherstellt.

Jiamin Luo, Xuqian Gu, Jingjing Wang + 1 more2026-02-23💻 cs

DeepSVU: Towards In-depth Security-oriented Video Understanding via Unified Physical-world Regularized MoE

Die Arbeit stellt DeepSVU vor, eine neue Chat-Aufgabe für das vertiefte sicherheitsorientierte Videoverständnis, die durch den vorgeschlagenen Unified Physical-world Regularized MoE (UPRM)-Ansatz nicht nur Bedrohungen erkennt, sondern auch deren Ursachen attribuiert und bewertet, indem sie grob-zu-feine physikalische Weltinformationen effektiv modelliert.

Yujie Jin, Wenxin Zhang, Jingjing Wang + 1 more2026-02-23🤖 cs.AI

Faster Training, Fewer Labels: Self-Supervised Pretraining for Fine-Grained BEV Segmentation

Die vorgestellte Methode nutzt einen zweiphasigen Trainingsansatz mit selbstüberwachtem Pretraining durch differentiable Reprojektion und Mask2Former-Pseudolabels, um die Annotation für die feinkörnige BEV-Segmentierung zu halbieren und gleichzeitig die Leistung sowie die Effizienz im Vergleich zu vollständig überwachten Baselines zu steigern.

Daniel Busch, Christian Bohn, Thomas Kurbiel + 3 more2026-02-23💻 cs

Comparative Assessment of Multimodal Earth Observation Data for Soil Moisture Estimation

Diese Studie stellt einen hochauflösenden (10 m) Rahmen zur Schätzung der Bodenfeuchte in Europa vor, der zeigt, dass die Kombination von Sentinel-1-, Sentinel-2- und ERA-5-Daten mit maschinellen Lernverfahren zwar präzise Ergebnisse liefert, aber spezialisierte spektrale Indizes in diesem datenarmen Regressionskontext den Embeddings von Foundation-Modellen wie Prithvi überlegen bleiben.

Ioannis Kontogiorgakis, Athanasios Askitopoulos, Iason Tsardanidis + 4 more2026-02-23🤖 cs.LG

DohaScript: A Large-Scale Multi-Writer Dataset for Continuous Handwritten Hindi Text

Die Arbeit stellt DohaScript vor, einen groß angelegten, mehrschreiberigen Datensatz mit kontinuierlichem handschriftlichem Hindi-Text von 531 Autoren, der als standardisierter Benchmark dient, um die bisherige Unterrepräsentation von Devanagari-Schrift in der Forschung zu überwinden und Aufgaben wie Handschrifterkennung sowie Stilanalyse zu ermöglichen.

Kunwar Arpit Singh, Ankush Prakash, Haroon R Lone2026-02-23🤖 cs.AI

RamanSeg: Interpretability-driven Deep Learning on Raman Spectra for Cancer Diagnosis

Die Studie stellt RamanSeg vor, ein interpretierbares, prototypenbasiertes Deep-Learning-Modell zur Krebsdiagnose mittels Raman-Spektroskopie, das nicht nur die Interpretierbarkeit von „Black-Box"-Ansätzen verbessert, sondern auch eine segmentierungsbasierte Klassifizierung ermöglicht, die in einer Variante die Leistung eines U-Net-Baselines übertrifft.

Chris Tomy, Mo Vali, David Pertzborn + 9 more2026-02-23⚡ eess