SiamGM: Siamese Geometry-Aware and Motion-Guided Network for Real-Time Satellite Video Object Tracking

Die Arbeit stellt SiamGM vor, ein neuartiges siamesisches Netzwerk, das durch einen geometriebewussten Inter-Frame-Graph-Attention-Modul und eine motion-gesteuerte Online-Optimierung die Herausforderungen des Objekttrackings in Satellitenvideos bewältigt und dabei Echtzeitfähigkeiten bei über 130 Bildern pro Sekunde bietet.

Zixiao Wen, Zhen Yang, Jiawei Li, Xiantai Xiang, Guangyao Zhou, Yuxin Hu, Yuhan Liu2026-03-10💻 cs

GRD-Net: Generative-Reconstructive-Discriminative Anomaly Detection with Region of Interest Attention Module

Die vorgestellte GRD-Net-Architektur kombiniert einen generativen Residual-Autoencoder mit einem diskriminativen Segmentierungsnetzwerk, das mittels eines Region-of-Interest-Moduls Anomalien gezielt in relevanten Bildbereichen erkennt und so herkömmliche, datensatzabhängige Nachverarbeitungsschritte überflüssig macht.

Niccolò Ferrari, Michele Fraccaroli, Evelina Lamma2026-03-10🤖 cs.LG

Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance

Diese Arbeit stellt ein effizientes RGB-D-Modell zur Szenenverständnis vor, das durch einen verbesserten Fusionsencoder, maßgeschneiderte Schichten für semantische und Instanzsegmentierung sowie eine adaptive Multi-Task-Loss-Funktion die Genauigkeit und Verarbeitungsgeschwindigkeit im Vergleich zu bestehenden Methoden auf gängigen Datensätzen steigert.

Guodong Sun, Junjie Liu, Gaoyang Zhang, Bo Wu, Yang Zhang2026-03-10💻 cs

A Systematic Comparison of Training Objectives for Out-of-Distribution Detection in Image Classification

Diese Studie bietet einen systematischen Vergleich verschiedener Trainingsziele für die Erkennung von Out-of-Distribution-Daten in der Bildklassifizierung und stellt fest, dass die Kreuzentropie-Verlustfunktion im Vergleich zu Prototyp-, Triplet- und Average-Precision-Verlusten die konsistenteste Gesamtleistung bei der Erkennung sowohl naher als auch entfernter OOD-Daten liefert.

Furkan Genç, Onat Özdemir, Emre Akbas2026-03-10🤖 cs.LG

Integration of deep generative Anomaly Detection algorithm in high-speed industrial line

Die vorgestellte Arbeit stellt ein halbüberwachtes, auf einem generativen adversariellen Netzwerk mit Residual-Autoencoder basierendes Anomalieerkennungssystem vor, das speziell für die Echtzeit-Inspektion auf einer hochgeschwindigkeits Blow-Fill-Seal-Produktionslinie in der Pharmaindustrie entwickelt wurde und dabei hohe Genauigkeit bei strengen Zeit- und Hardwareanforderungen gewährleistet.

Niccolò Ferrari, Nicola Zanarini, Michele Fraccaroli, Alice Bizzarri, Evelina Lamma2026-03-10🤖 cs.LG

Models as Lego Builders: Assembling Malice from Benign Blocks via Semantic Blueprints

Die Studie stellt „StructAttack" vor, einen neuen Black-Box-Angriff auf Large Vision-Language Models, der durch die Umwandlung schädlicher Anfragen in scheinbar harmlose strukturierte visuelle Prompts (wie Mindmaps oder Tabellen) Sicherheitsmechanismen umgeht und so das Modell dazu bringt, aus benignen Bausteinen schädliche Inhalte zu generieren.

Chenxi Li, Xianggan Liu, Dake Shen, Yaosong Du, Zhibo Yao, Hao Jiang, Linyi Jiang, Chengwei Cao, Jingzhe Zhang, RanYi Peng, Peiling Bai, Xiande Huang2026-03-10🤖 cs.LG

Fast Attention-Based Simplification of LiDAR Point Clouds for Object Detection and Classification

Die vorgestellte Arbeit entwickelt eine effiziente, lernbasierte Methode zur Vereinfachung von LiDAR-Punktwolken mittels Feature-Embedding und aufmerksamkeitsbasierter Sampling-Strategie, die im Vergleich zu herkömmlichen Verfahren wie Farthest Point Sampling eine höhere Geschwindigkeit bei gleicher oder besserer Genauigkeit für die Objekterkennung und -klassifizierung bietet.

Z. Rozsa, Á. Madaras, Q. Wei, X. Lu, M. Golarits, H. Yuan, T. Sziranyi, R. Hamzaoui2026-03-10💻 cs

EmbedTalk: Triplane-Free Talking Head Synthesis using Embedding-Driven Gaussian Deformation

Die Arbeit stellt EmbedTalk vor, ein System zur Echtzeit-Synthese sprechender Köpfe, das durch den Ersatz von Tri-Plane-Codierungen durch lernbare Embeddings für die Deformation von 3D-Gaußschen Splatting-Modellen eine überlegene Renderqualität, Lippen-Synchronisation und Bewegungsfrequenz bei gleichzeitig kompakterer Modellgröße erreicht.

Arpita Saggar, Jonathan C. Darling, Duygu Sarikaya, David C. Hogg2026-03-10💻 cs

Compression as Adaptation: Implicit Visual Representation with Diffusion Foundation Models

Diese Arbeit stellt ein neues Framework vor, das visuelle Signale als Funktionen parametrisiert, die auf einem eingefrorenen Diffusions-Grundmodell basieren, um durch Hashing in kompakte Vektoren eine extrem effiziente Videokompression zu ermöglichen und gleichzeitig die Brücke zwischen Kompression und Generierung zu schlagen.

Jiajun He, Zongyu Guo, Zhaoyang Jia, Xiaoyi Zhang, Jiahao Li, Xiao Li, Bin Li, José Miguel Hernández-Lobato, Yan Lu2026-03-10🤖 cs.LG

Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models

Die Studie zeigt, dass Halluzinationen in Vision-Language-Modellen durch einen „Überdenkungs"-Prozess entstehen, bei dem fehlerhafte Hypothesen in den mittleren Schichten verankert und weitergegeben werden, und stellt mit dem „Overthinking Score" eine neue Metrik vor, die durch die Analyse dieser Schichtdynamik die Halluzinationserkennung deutlich verbessert.

Abin Shoby, Ta Duc Huy, Tuan Dung Nguyen, Minh Khoi Ho, Qi Chen, Anton van den Hengel, Phi Le Nguyen, Johan W. Verjans, Vu Minh Hieu Phan2026-03-10💻 cs

Real-Time Glottis Detection Framework via Spatial-decoupled Feature Learning for Nasal Transnasal Intubation

Die Arbeit stellt Mobile GlottisNet vor, ein leichtgewichtiges Echtzeit-Framework zur Erkennung der Glottis für die nasale Intubation, das durch innovative räumliche Entkopplungsmechanismen und dynamische Anpassungsstrategien auch auf ressourcenbeschränkten Edge-Geräten hohe Leistungsfähigkeit und Geschwindigkeit erreicht.

Jinyu Liu, Gaoyang Zhang, Yang Zhou, Ruoyi Hao, Yang Zhang, Hongliang Ren2026-03-10💻 cs

Evaluating Synthetic Data for Baggage Trolley Detection in Airport Logistics

Die Studie stellt eine auf NVIDIA Omniverse basierende synthetische Datenpipeline für die Erkennung von Gepäckwagen im Flughafen Algier vor und zeigt, dass eine Kombination aus synthetischen Daten und nur 40 % realer Annotationen die Leistung eines reinen Real-Daten-Modells erreicht oder übertrifft, während der Annotationsaufwand um 25 bis 35 % reduziert wird.

Abdeldjalil Taibi, Mohmoud Badlis, Amina Bensalem, Belkacem Zouilekh, Mohammed Brahimi2026-03-10🤖 cs.LG

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

Die Arbeit stellt AtomicVLA vor, ein einheitliches Planungs- und Ausführungsframework, das durch eine Skill-Guided Mixture-of-Experts-Architektur skalierbare atomare Fertigkeiten lernt und so die Leistung von Robotern bei langfristigen Aufgaben und kontinuierlichem Lernen im Vergleich zu bestehenden VLA-Modellen erheblich verbessert.

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang2026-03-10💻 cs

GLASS: Graph and Vision-Language Assisted Semantic Shape Correspondence

Die Arbeit stellt GLASS vor, ein unüberwachtes Framework, das durch die Integration von geometrischer Spektralanalyse, vision-sprachlichen Semantik-Priors und graphgestütztem Kontrastverlust eine robuste und semantisch konsistente dichte 3D-Korrespondenz auch unter starken nicht-isometrischen Verformungen und zwischen verschiedenen Klassen ermöglicht.

Qinfeng Xiao, Guofeng Mei, Qilong Liu, Chenyuan Yi, Fabio Poiesi, Jian Zhang, Bo Yang, Yick Kit-lun2026-03-10💻 cs

Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework

Die Autoren stellen ein neues Self-Critical Inference-Framework vor, das durch mehrstufige kontrafaktische Schlussfolgerungen sowohl Text- als auch Bildstörungen nutzt, um die Robustheit von Large Vision-Language Models gegenüber Sprachverzerrungen und -sensibilität zu verbessern, und führen zudem einen dynamischen, modellspezifischen Robustheits-Benchmark (DRBench) ein, um die Zuverlässigkeit dieser Modelle genauer zu bewerten.

Kaihua Tang, Jiaxin Qi, Jinli Ou, Yuhua Zheng, Jianqiang Huang2026-03-10💻 cs

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

Das Paper stellt Holi-Spatial vor, den ersten vollständig automatisierten, groß angelegten multimodalen Datensatz, der aus Rohvideodaten ohne menschliches Eingreifen erstellt wurde, um durch hochwertige 3D-Rekonstruktionen und räumliche Frage-Antwort-Paare das Training von Modellen für räumliche Intelligenz zu verbessern.

Yuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong2026-03-10💻 cs