Unifying Language-Action Understanding and Generation for Autonomous Driving

Die Arbeit stellt LinkVLA vor, ein neuartiges Modell für das autonome Fahren, das durch die Vereinheitlichung von Sprach- und Aktionstokens in einem gemeinsamen Codebuch, ein zusätzliches Verständnisziel für bidirektionale Semantik und eine effiziente C2F-Generierung die Ausrichtung zwischen Sprache und Aktionen verbessert sowie die Inferenzzeit um 86 % reduziert.

Xinyang Wang, Qian Liu, Wenjie Ding + 7 more2026-03-03💻 cs

Deepfake Forensics Adapter: A Dual-Stream Network for Generalizable Deepfake Detection

Die vorgestellte Arbeit stellt Deepfake Forensics Adapter (DFA) vor, ein dual-stream Framework, das durch die Kombination eines vortrainierten CLIP-Modells mit globalen und lokalen Forensik-Anpassern sowie einer interaktiven Fusion eine überlegene Generalisierungsfähigkeit und State-of-the-Art-Leistung bei der Erkennung von Deepfakes erreicht.

Jianfeng Liao, Yichen Wei, Raymond Chan Ching Bon + 3 more2026-03-03💻 cs

VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

Die Arbeit stellt VidDoS vor, einen universellen Denial-of-Service-Angriff auf Video-basierte Large Language Models, der durch maskiertes Teacher Forcing und die Unterdrückung von Terminierungsmechanismen die Inferenz-Latenz um das 15-fache und die Token-Erweiterung um das 205-fache erhöht und somit kritische Sicherheitsrisiken in Echtzeitanwendungen wie dem autonomen Fahren verursacht.

Duoxun Tang, Dasen Dai, Jiyao Wang + 3 more2026-03-03🤖 cs.AI

From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents

Die Arbeit stellt MM-Mem vor, eine pyramidenförmige multimodale Speicherarchitektur, die auf der Fuzzy-Trace-Theorie basiert und durch eine semantische Informationsflaschenhals-Optimierung sowie eine entropiegesteuerte Abrufstrategie effiziente Langzeit-Videoverständnisfähigkeiten ermöglicht, indem sie detaillierte Wahrnehmungen schrittweise in abstrakte semantische Schemata verdichtet.

Niu Lian, Yuting Wang, Hanshu Yao + 5 more2026-03-03💬 cs.CL

SCATR: Mitigating New Instance Suppression in LiDAR-based Tracking-by-Attention via Second Chance Assignment and Track Query Dropout

Die Arbeit stellt SCATR vor, ein neuartiges LiDAR-basiertes Tracking-by-Attention-Modell, das durch die Einführung der architekturunabhängigen Trainingsstrategien „Second Chance Assignment" und „Track Query Dropout" die Unterdrückung neuer Instanzen effektiv bekämpft und damit die Leistungslücke zu herkömmlichen Tracking-by-Detection-Methoden schließt.

Brian Cheong, Letian Wang, Sandro Papais + 1 more2026-03-03💻 cs

ATA: Bridging Implicit Reasoning with Attention-Guided and Action-Guided Inference for Vision-Language Action Models

Die Arbeit stellt ATA vor, ein trainingsfreies und leichtgewichtiges Plug-and-Play-Framework, das durch die Kombination von aufmerksamkeits- und actionsgeführten Strategien implizites Schlussfolgern in Vision-Language-Action-Modelle integriert, um die Aufgabenerfolgsrate und Robustheit zu steigern, ohne zusätzliche Annotationen oder Trainingsaufwand zu benötigen.

Cheng Yang, Jianhao Jiao, Lingyi Huang + 8 more2026-03-03🤖 cs.AI

Rate-Distortion Signatures of Generalization and Information Trade-offs

Die Studie führt einen raten-verzerrungstheoretischen Rahmen ein, der durch zwei geometrische Signaturen (Steigung und Krümmung) die Kompromisse zwischen Genauigkeit und Robustheit quantifiziert und zeigt, dass sich menschliche und künstliche Sehsysteme trotz eines gemeinsamen Verlustkompressionsprinzips in ihrer Generalisierungsgeometrie systematisch unterscheiden.

Leyla Roksan Caglar, Pedro A. M. Mediano, Baihan Lin2026-03-03🧬 q-bio

Downstream Task Inspired Underwater Image Enhancement: A Perception-Aware Study from Dataset Construction to Network Design

Die vorgestellte Arbeit stellt das DTI-UIE-Framework vor, das durch eine auf menschliche Wahrnehmung ausgerichtete, zweigleisige Netzwerkarchitektur und einen speziell dafür erstellten Datensatz Unterwasserbilder so verbessert, dass sie die Leistung nachgelagerter Erkennungsaufgaben wie Segmentierung und Objekterkennung signifikant steigern.

Bosen Lin, Feng Gao, Yanwei Yu + 2 more2026-03-03⚡ eess

3D Field of Junctions: A Noise-Robust, Training-Free Structural Prior for Volumetric Inverse Problems

Die Arbeit stellt ein trainingsfreies, robustes 3D-Feld von Verbindungen (3D FoJ) als strukturelles Prior vor, das durch die Optimierung von 3D-Keilen in Volumina Rauschen effektiv entfernt und scharfe Kanten erhält, wodurch es bei verschiedenen inversen Problemen mit niedrigem Signal-Rausch-Verhältnis wie CT, Cryo-ET und Lidar überlegene Ergebnisse erzielt.

Namhoon Kim, Narges Moeini, Justin Romberg + 1 more2026-03-03⚡ eess

Data Augmentation via Mixed Class Interpolation using Cycle-Consistent Generative Adversarial Networks Applied to Cross-Domain Imagery

Diese Arbeit stellt eine neuartige Daten-Augmentationsmethode namens C2GMA vor, die mittels Cycle-Consistent Generative Adversarial Networks sichtbare Bilder in nicht-sichtbare Domänen (wie SAR) übersetzt und durch Mischklassen-Interpolation die Klassifikationsgenauigkeit bei begrenzten Datenbeständen signifikant verbessert.

Hiroshi Sasaki, Chris G. Willcocks, Toby P. Breckon2026-03-02🤖 cs.LG

Dite-HRNet: Dynamic Lightweight High-Resolution Network for Human Pose Estimation

Die vorgestellte Arbeit stellt Dite-HRNet vor, ein dynamisches, leichtgewichtiges Hochauflösungsnetzwerk, das durch neuartige Blöcke mit dynamischer Split-Convolution und adaptiver Kontextmodellierung effizient Multi-Scale-Informationen und langreichweitige Abhängigkeiten für die menschliche Pose-Schätzung erfasst und dabei sowohl auf den COCO- als auch auf den MPII-Datensätzen den aktuellen Stand der Technik bei leichten Netzwerken übertrifft.

Qun Li, Ziyi Zhang, Fu Xiao + 2 more2026-03-02💻 cs