cs.CV Arbeiten | Gist.Science

Unifying Language-Action Understanding and Generation for Autonomous Driving

Die Arbeit stellt LinkVLA vor, ein neuartiges Modell für das autonome Fahren, das durch die Vereinheitlichung von Sprach- und Aktionstokens in einem gemeinsamen Codebuch, ein zusätzliches Verständnisziel für bidirektionale Semantik und eine effiziente C2F-Generierung die Ausrichtung zwischen Sprache und Aktionen verbessert sowie die Inferenzzeit um 86 % reduziert.

Xinyang Wang, Qian Liu, Wenjie Ding + 7 more2026-03-03💻 cs

Revisiting Global Token Mixing in Task-Dependent MRI Restoration: Insights from Minimal Gated CNN Baselines

Die Studie zeigt, dass der Nutzen globaler Token-Mixing-Modelle für die MRI-Wiederherstellung stark von der spezifischen Aufgabe abhängt und sich je nach Degradationsstruktur und physikalischen Randbedingungen entweder durch einfache lokale CNNs ersetzen lässt oder für heteroskedastisches Rauschen unverzichtbar ist.

Xiangjian Hou, Chao Qin, Chang Ni + 3 more2026-03-03⚡ eess

Deepfake Forensics Adapter: A Dual-Stream Network for Generalizable Deepfake Detection

Die vorgestellte Arbeit stellt Deepfake Forensics Adapter (DFA) vor, ein dual-stream Framework, das durch die Kombination eines vortrainierten CLIP-Modells mit globalen und lokalen Forensik-Anpassern sowie einer interaktiven Fusion eine überlegene Generalisierungsfähigkeit und State-of-the-Art-Leistung bei der Erkennung von Deepfakes erreicht.

Jianfeng Liao, Yichen Wei, Raymond Chan Ching Bon + 3 more2026-03-03💻 cs

VidDoS: Universal Denial-of-Service Attack on Video-based Large Language Models

Die Arbeit stellt VidDoS vor, einen universellen Denial-of-Service-Angriff auf Video-basierte Large Language Models, der durch maskiertes Teacher Forcing und die Unterdrückung von Terminierungsmechanismen die Inferenz-Latenz um das 15-fache und die Token-Erweiterung um das 205-fache erhöht und somit kritische Sicherheitsrisiken in Echtzeitanwendungen wie dem autonomen Fahren verursacht.

Duoxun Tang, Dasen Dai, Jiyao Wang + 3 more2026-03-03🤖 cs.AI

From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents

Die Arbeit stellt MM-Mem vor, eine pyramidenförmige multimodale Speicherarchitektur, die auf der Fuzzy-Trace-Theorie basiert und durch eine semantische Informationsflaschenhals-Optimierung sowie eine entropiegesteuerte Abrufstrategie effiziente Langzeit-Videoverständnisfähigkeiten ermöglicht, indem sie detaillierte Wahrnehmungen schrittweise in abstrakte semantische Schemata verdichtet.

Niu Lian, Yuting Wang, Hanshu Yao + 5 more2026-03-03💬 cs.CL

UltraStar: Semantic-Aware Star Graph Modeling for Echocardiography Navigation

Das Paper stellt UltraStar vor, ein semantikbewusstes Stern-Graph-Modell, das die Echokardiographie-Navigation durch eine verlässliche, ankerbasierte globale Lokalisierung und die Reduzierung von Rauschen in historischen Trajektorien verbessert.

Teng Wang, Haojun Jiang, Chenxi Li + 6 more2026-03-03💻 cs

WildCross: A Cross-Modal Large Scale Benchmark for Place Recognition and Metric Depth Estimation in Natural Environments

Das Paper stellt WildCross vor, ein umfassendes, multimodales Benchmark-Dataset mit über 476.000 Bildern und Lidar-Daten aus natürlichen Umgebungen, das speziell entwickelt wurde, um die Herausforderungen der Ortserkennung und metrischen Tiefenschätzung in unstrukturierten Szenarien zu adressieren.

Joshua Knights, Joseph Reid, Kaushik Roy + 3 more2026-03-03💻 cs

SCATR: Mitigating New Instance Suppression in LiDAR-based Tracking-by-Attention via Second Chance Assignment and Track Query Dropout

Die Arbeit stellt SCATR vor, ein neuartiges LiDAR-basiertes Tracking-by-Attention-Modell, das durch die Einführung der architekturunabhängigen Trainingsstrategien „Second Chance Assignment" und „Track Query Dropout" die Unterdrückung neuer Instanzen effektiv bekämpft und damit die Leistungslücke zu herkömmlichen Tracking-by-Detection-Methoden schließt.

Brian Cheong, Letian Wang, Sandro Papais + 1 more2026-03-03💻 cs

ATA: Bridging Implicit Reasoning with Attention-Guided and Action-Guided Inference for Vision-Language Action Models

Die Arbeit stellt ATA vor, ein trainingsfreies und leichtgewichtiges Plug-and-Play-Framework, das durch die Kombination von aufmerksamkeits- und actionsgeführten Strategien implizites Schlussfolgern in Vision-Language-Action-Modelle integriert, um die Aufgabenerfolgsrate und Robustheit zu steigern, ohne zusätzliche Annotationen oder Trainingsaufwand zu benötigen.

Cheng Yang, Jianhao Jiao, Lingyi Huang + 8 more2026-03-03🤖 cs.AI

Radiometrically Consistent Gaussian Surfels for Inverse Rendering

Die Arbeit stellt RadioGS vor, ein inverses Rendering-Framework, das durch die Einführung radiometrischer Konsistenz und die Nutzung von Gaussian Surfels mit 2D-Strahlverfolgung präzise Materialtrennung und globale Beleuchtungseffekte ermöglicht, während es gleichzeitig hohe Recheneffizienz und schnelle Umbeleuchtung bietet.

Kyu Beom Han, Jaeyoon Kim, Woo Jae Kim + 2 more2026-03-03💻 cs

PhotoBench: Beyond Visual Matching Towards Personalized Intent-Driven Photo Retrieval

Die Arbeit stellt PhotoBench vor, den ersten Benchmark für die personalisierte Bildsuche, der auf authentischen privaten Alben basiert und zeigt, dass zukünftige Systeme über reine visuelle Übereinstimmung hinausgehen müssen, um komplexe, intent-getriebene Abfragen durch robuste agentische Schlussfolgerung und Multi-Quellen-Fusion zu lösen.

Tianyi Xu, Rong Shan, Junjie Wu + 11 more2026-03-03🤖 cs.AI

Rate-Distortion Signatures of Generalization and Information Trade-offs

Die Studie führt einen raten-verzerrungstheoretischen Rahmen ein, der durch zwei geometrische Signaturen (Steigung und Krümmung) die Kompromisse zwischen Genauigkeit und Robustheit quantifiziert und zeigt, dass sich menschliche und künstliche Sehsysteme trotz eines gemeinsamen Verlustkompressionsprinzips in ihrer Generalisierungsgeometrie systematisch unterscheiden.

Leyla Roksan Caglar, Pedro A. M. Mediano, Baihan Lin2026-03-03🧬 q-bio

Downstream Task Inspired Underwater Image Enhancement: A Perception-Aware Study from Dataset Construction to Network Design

Die vorgestellte Arbeit stellt das DTI-UIE-Framework vor, das durch eine auf menschliche Wahrnehmung ausgerichtete, zweigleisige Netzwerkarchitektur und einen speziell dafür erstellten Datensatz Unterwasserbilder so verbessert, dass sie die Leistung nachgelagerter Erkennungsaufgaben wie Segmentierung und Objekterkennung signifikant steigern.

Bosen Lin, Feng Gao, Yanwei Yu + 2 more2026-03-03⚡ eess

Neural Operator-Grounded Continuous Tensor Function Representation and Its Applications

Die vorgestellte Arbeit führt die neural operator-grounded continuous tensor function representation (NO-CTR) ein, eine Methode, die durch nichtlineare, kontinuierliche Moden-n-Operatoren diskrete Tensorzerlegungen überwindet und so eine präzisere Darstellung komplexer realer Daten auf und jenseits von Gittern ermöglicht.

Ruoyang Su, Xi-Le Zhao, Sheng Liu + 3 more2026-03-03🔢 math

FireRed-OCR Technical Report

Der Bericht stellt FireRed-OCR vor, ein systematisches Framework, das allgemeine Vision-Language-Modelle (basierend auf Qwen3-VL) durch eine innovative „Geometrie + Semantik"-Datenfabrik und eine dreistufige Progressive-Training-Strategie in hochpräzise OCR-Experten verwandelt, die auf dem OmniDocBench v1.5 State-of-the-Art-Ergebnisse erzielen.

Hao Wu, Haoran Lou, Xinyue Li + 19 more2026-03-03⚡ eess

Tiny-DroNeRF: Tiny Neural Radiance Fields aboard Federated Learning-enabled Nano-drones

Die Arbeit stellt Tiny-DroNeRF vor, ein auf einem ultra-leistungssparenden Mikrocontroller laufendes, federiertes Lernsystem für NeRF-Modelle auf Nano-Drohnen, das durch eine 96%ige Speicherreduktion und kollaboratives Training trotz strenger Ressourcenbeschränkungen eine präzise 3D-Szenenrekonstruktion ermöglicht.

Ilenia Carboni, Elia Cereda, Lorenzo Lamberti + 3 more2026-03-03⚡ eess

Event-Only Drone Trajectory Forecasting with RPM-Modulated Kalman Filtering

Diese Arbeit stellt eine Methode zur Vorhersage von Drohnenflugbahnen ausschließlich auf Basis von Event-Kameradaten vor, die durch die Extraktion von Propellerdrehzahlen und deren Integration in einen RPM-bewussten Kalman-Filter eine robustere und genauere Trajektorienprognose ohne RGB-Bilder oder Trainingsdaten ermöglicht.

Hari Prasanth S. M., Pejman Habibiroudkenar, Eerik Alamikkotervo + 2 more2026-03-03⚡ eess

3D Field of Junctions: A Noise-Robust, Training-Free Structural Prior for Volumetric Inverse Problems

Die Arbeit stellt ein trainingsfreies, robustes 3D-Feld von Verbindungen (3D FoJ) als strukturelles Prior vor, das durch die Optimierung von 3D-Keilen in Volumina Rauschen effektiv entfernt und scharfe Kanten erhält, wodurch es bei verschiedenen inversen Problemen mit niedrigem Signal-Rausch-Verhältnis wie CT, Cryo-ET und Lidar überlegene Ergebnisse erzielt.

Namhoon Kim, Narges Moeini, Justin Romberg + 1 more2026-03-03⚡ eess

Data Augmentation via Mixed Class Interpolation using Cycle-Consistent Generative Adversarial Networks Applied to Cross-Domain Imagery

Diese Arbeit stellt eine neuartige Daten-Augmentationsmethode namens C2GMA vor, die mittels Cycle-Consistent Generative Adversarial Networks sichtbare Bilder in nicht-sichtbare Domänen (wie SAR) übersetzt und durch Mischklassen-Interpolation die Klassifikationsgenauigkeit bei begrenzten Datenbeständen signifikant verbessert.

Hiroshi Sasaki, Chris G. Willcocks, Toby P. Breckon2026-03-02🤖 cs.LG

Dite-HRNet: Dynamic Lightweight High-Resolution Network for Human Pose Estimation

Die vorgestellte Arbeit stellt Dite-HRNet vor, ein dynamisches, leichtgewichtiges Hochauflösungsnetzwerk, das durch neuartige Blöcke mit dynamischer Split-Convolution und adaptiver Kontextmodellierung effizient Multi-Scale-Informationen und langreichweitige Abhängigkeiten für die menschliche Pose-Schätzung erfasst und dabei sowohl auf den COCO- als auch auf den MPII-Datensätzen den aktuellen Stand der Technik bei leichten Netzwerken übertrifft.

Qun Li, Ziyi Zhang, Fu Xiao + 2 more2026-03-02💻 cs

← Zurück Weiter →