DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

Die Arbeit stellt DRIFT vor, einen Dual-Representation Inter-Fusion Transformer, der durch eine parallele Architektur aus Punkt- und Säulenpfaden lokale sowie globale Kontextinformationen aus 4D-Radarpunktwolken effektiv fusioniert und damit die Leistung bei der Objekterkennung und Straßenabschätzung für automatisiertes Fahren signifikant verbessert.

Siqi Pei, Andras Palffy, Dariu M. Gavrila2026-03-11💻 cs

TemporalDoRA: Temporal PEFT for Robust Surgical Video Question Answering

Die Arbeit stellt TemporalDoRA vor, eine parametereffiziente Feinabstimmungsmethode für chirurgische Video-Frage-Antwort-Systeme, die durch die Integration von zeitlicher Aufmerksamkeit in den Low-Rank-Adaptionspfad die Robustheit gegenüber linguistischen Variationen verbessert, und führt zudem den neuen REAL-Colon-VQA-Datensatz ein.

Luca Carlini, Chiara Lena, Cesare Hassan, Danail Stoyanov, Elena De Momi, Sophia Bano, Mobarak I. Hoque2026-03-11💻 cs

An Empirical Study of Interaction Smells in Multi-Turn Human-LLM Collaborative Code Generation

Diese Studie führt eine empirische Untersuchung von „Interaktionsgerüchen" in der mehrstufigen Mensch-LLM-Codegenerierung durch, stellt eine erste Taxonomie vor, analysiert deren Verteilung in verschiedenen Modellen und schlägt das Multi-Agenten-Framework InCE zur effektiven Minderung dieser Qualitätsprobleme vor.

Binquan Zhang, Li Zhang, Lin Shi, Song Wang, Yuwei Qian, Linhui Zhao, Fang Liu, An Fu, Yida Ye2026-03-11💻 cs

TriFusion-SR: Joint Tri-Modal Medical Image Fusion and SR

Das Paper stellt TriFusion-SR vor, ein wellenlettbasiertes, konditioniertes Diffusionsframework, das die gemeinsame Fusion und Super-Resolution von tri-modalen medizinischen Bildern ermöglicht, indem es Frequenzband-Zerlegung und adaptive räumlich-frequente Fusion nutzt, um Artefakte zu reduzieren und die Bildqualität signifikant zu verbessern.

Fayaz Ali Dharejo, Sharif S. M. A., Aiman Khalil, Nachiket Chaudhary, Rizwan Ali Naqvi, Radu Timofte2026-03-11💻 cs

FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation

Die Arbeit stellt FrameDiT vor, ein effizientes Video-Generierungsmodell, das eine neuartige Matrix-Aufmerksamkeit auf Frame-Ebene nutzt, um den Kompromiss zwischen rechenintensiver globaler 3D-Aufmerksamkeit und lokaler Faktor-Aufmerksamkeit zu überwinden und dabei sowohl zeitliche Kohärenz als auch hohe Bildqualität zu erreichen.

Minh Khoa Le, Kien Do, Duc Thanh Nguyen, Truyen Tran2026-03-11💻 cs

Idempotent Slices with Applications to Code-Size Reduction

Dieses Papier formalisiert den Begriff der idempotenten Rückwärtsschnitte, stellt einen korrekten und effizienten Algorithmus zu deren Extraktion in GSA-Form vor und demonstriert deren praktische Anwendung zur sparsamen Reduzierung des Code-Umfangs durch das Zusammenführen nicht-contiguierender Anweisungsfolgen.

Rafael Alvarenga de Azevedo, Daniel Augusto Costa de Sa, Rodrigo Caetano Rocha, Fernando Magno Quintão Pereira2026-03-11💻 cs

A Regularized Ensemble Kalman Filter for Stochastic Phase Field Models of Brittle Fracture

Diese Arbeit stellt eine regularisierte Ensemble-Kalman-Filter-Methode vor, die sensorische Verschiebungsdaten nutzt, um im Rahmen stochastischer Phasenfeldmodelle für spröde Brüche nicht nur die Verschiebungs-, sondern auch die Phasenfeldverteilung durch Bayessche Inferenz zu aktualisieren und so Modellunsicherheiten zu reduzieren.

Lucas Hermann, Ralf Jänicke, Knut Andreas Meyer, Ulrich Römer2026-03-11💻 cs

WVA: A Global Optimization Control Plane for llmd

Die Arbeit stellt den Workload Variant Autoscaler (WVA) vor, eine auf \texttt{llmd} abgestimmte globale Steuerungsplattform, die durch die Berücksichtigung von SLOs, Hardware-Heterogenität und internem Engine-Zustand im Vergleich zum herkömmlichen Kubernetes-HPA die effektive Durchsatzleistung um 37 % steigert, die Anzahl der fehlgeschlagenen Anfragen um das Zehnfache reduziert und den Energieverbrauch senkt.

Abhishek Malvankar, Lionel Villard, Mohammed Abdi, Evgeny Shindin, Braulio Dumba, Vishakha Ramani, Asser Tantawi, Tamar Eilam2026-03-11💻 cs

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

Die Studie stellt FetalAgents vor, ein neuartiges Multi-Agenten-System, das durch die dynamische Koordination spezialisierter Vision-Experten die Analyse von fetalen Ultraschallbildern und -videos sowie die automatische Generierung strukturierter klinischer Berichte verbessert und dabei sowohl die Genauigkeit als auch die Workflow-Integration übertrifft.

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan Tian2026-03-11💻 cs

Ensuring Data Freshness in Multi-Rate Task Chains Scheduling

Dieses Paper stellt einen neuen, auf Datenfrische basierenden Scheduling-Rahmen für Multi-Rate-Aufgabenketten vor, der durch die Einführung von Just-in-Time-Versatzzeiten und einen Konsens-Versatz-Suchalgorithmus die End-to-End-Datenfrische in sicherheitskritischen Systemen gewährleistet, ohne dabei die Nachteilige Latenz des Logical-Execution-Time-Paradigmas oder die Ineffizienz von Überabtastung in Kauf zu nehmen.

José Luis Conradi Hoffmann, Antônio Augusto Fröhlich2026-03-11💻 cs

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Die Arbeit stellt SACA (Step-Aware Contrastive Alignment) vor, ein Framework zur Verbesserung der Vision-Language Navigation in kontinuierlichen Umgebungen, das durch schrittweise, wahrnehmungsgegründete Bewertung und dynamisches Batch-Management die Probleme von SFT-bedingten kumulativen Fehlern und RFT-bedingten spärlichen Belohnungen überwindet und damit neue State-of-the-Art-Ergebnisse erzielt.

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang2026-03-11💻 cs

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

Die Arbeit stellt ENIGMA-360 vor, ein neuartiges, in einer realen Industrieanlage aufgezeichnetes Ego-Exo-Datenset mit 360 synchronisierten Videos und detaillierten Annotationen, das als Benchmark für die Erforschung menschlichen Verhaltens und die Entwicklung robuster Sicherheitsysteme dient.

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

Die Arbeit stellt LAP vor, ein sprachbewusstes Planungsmodell, das die Eindeutigkeit von Textbeschreibungen nutzt, um durch die Kombination eines feinabgestimmten Vision-Language-Modells und eines Diffusionsmodells den State-of-the-Art bei der Prozedurplanung in Instruktionsvideos auf drei Benchmarks zu erreichen.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry2026-03-11💻 cs

Simultaneous Embedding of Two Paths on the Grid

Die Arbeit zeigt, dass die Minimierung der längsten Kante bei der simultanen geometrischen Einbettung zweier Pfade auf einem ganzzahligen Gitter NP-schwer ist, während die Minimierung des Umfangs des umschließenden Gitters für den Fall, dass ein Pfad x-monoton und der andere y-monoton ist, in O(n3/2)O(n^{3/2}) Zeit gelöst werden kann.

Stephen Kobourov, William Lenhart, Giuseppe Liotta, Daniel Perz, Pavel Valtr, Johannes Zink2026-03-11💻 cs

The Richest Paradigm You're Not Using: Commercial Videogames at the Intersection of Human-Computer Interaction and Cognitive Science

Der Artikel argumentiert, dass kommerzielle Videospiele ein bisher unterschätztes, ökologisch valides Forschungsumfeld an der Schnittstelle von Human-Computer-Interaction und Kognitionswissenschaft darstellen, in dem kognitive Prozesse durch die inhärente Spielstruktur und einfache Beobachtungsmethoden systematisch untersucht werden können.

Jaap Munneke, Jennifer E. Corbett2026-03-11💻 cs