FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation

Die Arbeit stellt FrameDiT vor, ein effizientes Video-Generierungsmodell, das eine neuartige Matrix-Aufmerksamkeit auf Frame-Ebene nutzt, um den Kompromiss zwischen rechenintensiver globaler 3D-Aufmerksamkeit und lokaler Faktor-Aufmerksamkeit zu überwinden und dabei sowohl zeitliche Kohärenz als auch hohe Bildqualität zu erreichen.

Minh Khoa Le, Kien Do, Duc Thanh Nguyen, Truyen Tran2026-03-11💻 cs

Idempotent Slices with Applications to Code-Size Reduction

Dieses Papier formalisiert den Begriff der idempotenten Rückwärtsschnitte, stellt einen korrekten und effizienten Algorithmus zu deren Extraktion in GSA-Form vor und demonstriert deren praktische Anwendung zur sparsamen Reduzierung des Code-Umfangs durch das Zusammenführen nicht-contiguierender Anweisungsfolgen.

Rafael Alvarenga de Azevedo, Daniel Augusto Costa de Sa, Rodrigo Caetano Rocha, Fernando Magno Quintão Pereira2026-03-11💻 cs

A Regularized Ensemble Kalman Filter for Stochastic Phase Field Models of Brittle Fracture

Diese Arbeit stellt eine regularisierte Ensemble-Kalman-Filter-Methode vor, die sensorische Verschiebungsdaten nutzt, um im Rahmen stochastischer Phasenfeldmodelle für spröde Brüche nicht nur die Verschiebungs-, sondern auch die Phasenfeldverteilung durch Bayessche Inferenz zu aktualisieren und so Modellunsicherheiten zu reduzieren.

Lucas Hermann, Ralf Jänicke, Knut Andreas Meyer, Ulrich Römer2026-03-11💻 cs

WVA: A Global Optimization Control Plane for llmd

Die Arbeit stellt den Workload Variant Autoscaler (WVA) vor, eine auf \texttt{llmd} abgestimmte globale Steuerungsplattform, die durch die Berücksichtigung von SLOs, Hardware-Heterogenität und internem Engine-Zustand im Vergleich zum herkömmlichen Kubernetes-HPA die effektive Durchsatzleistung um 37 % steigert, die Anzahl der fehlgeschlagenen Anfragen um das Zehnfache reduziert und den Energieverbrauch senkt.

Abhishek Malvankar, Lionel Villard, Mohammed Abdi, Evgeny Shindin, Braulio Dumba, Vishakha Ramani, Asser Tantawi, Tamar Eilam2026-03-11💻 cs

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

Die Studie stellt FetalAgents vor, ein neuartiges Multi-Agenten-System, das durch die dynamische Koordination spezialisierter Vision-Experten die Analyse von fetalen Ultraschallbildern und -videos sowie die automatische Generierung strukturierter klinischer Berichte verbessert und dabei sowohl die Genauigkeit als auch die Workflow-Integration übertrifft.

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan Tian2026-03-11💻 cs

Ensuring Data Freshness in Multi-Rate Task Chains Scheduling

Dieses Paper stellt einen neuen, auf Datenfrische basierenden Scheduling-Rahmen für Multi-Rate-Aufgabenketten vor, der durch die Einführung von Just-in-Time-Versatzzeiten und einen Konsens-Versatz-Suchalgorithmus die End-to-End-Datenfrische in sicherheitskritischen Systemen gewährleistet, ohne dabei die Nachteilige Latenz des Logical-Execution-Time-Paradigmas oder die Ineffizienz von Überabtastung in Kauf zu nehmen.

José Luis Conradi Hoffmann, Antônio Augusto Fröhlich2026-03-11💻 cs

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Die Arbeit stellt SACA (Step-Aware Contrastive Alignment) vor, ein Framework zur Verbesserung der Vision-Language Navigation in kontinuierlichen Umgebungen, das durch schrittweise, wahrnehmungsgegründete Bewertung und dynamisches Batch-Management die Probleme von SFT-bedingten kumulativen Fehlern und RFT-bedingten spärlichen Belohnungen überwindet und damit neue State-of-the-Art-Ergebnisse erzielt.

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang2026-03-11💻 cs

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

Die Arbeit stellt ENIGMA-360 vor, ein neuartiges, in einer realen Industrieanlage aufgezeichnetes Ego-Exo-Datenset mit 360 synchronisierten Videos und detaillierten Annotationen, das als Benchmark für die Erforschung menschlichen Verhaltens und die Entwicklung robuster Sicherheitsysteme dient.

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

Die Arbeit stellt LAP vor, ein sprachbewusstes Planungsmodell, das die Eindeutigkeit von Textbeschreibungen nutzt, um durch die Kombination eines feinabgestimmten Vision-Language-Modells und eines Diffusionsmodells den State-of-the-Art bei der Prozedurplanung in Instruktionsvideos auf drei Benchmarks zu erreichen.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry2026-03-11💻 cs

Simultaneous Embedding of Two Paths on the Grid

Die Arbeit zeigt, dass die Minimierung der längsten Kante bei der simultanen geometrischen Einbettung zweier Pfade auf einem ganzzahligen Gitter NP-schwer ist, während die Minimierung des Umfangs des umschließenden Gitters für den Fall, dass ein Pfad x-monoton und der andere y-monoton ist, in O(n3/2)O(n^{3/2}) Zeit gelöst werden kann.

Stephen Kobourov, William Lenhart, Giuseppe Liotta, Daniel Perz, Pavel Valtr, Johannes Zink2026-03-11💻 cs

The Richest Paradigm You're Not Using: Commercial Videogames at the Intersection of Human-Computer Interaction and Cognitive Science

Der Artikel argumentiert, dass kommerzielle Videospiele ein bisher unterschätztes, ökologisch valides Forschungsumfeld an der Schnittstelle von Human-Computer-Interaction und Kognitionswissenschaft darstellen, in dem kognitive Prozesse durch die inhärente Spielstruktur und einfache Beobachtungsmethoden systematisch untersucht werden können.

Jaap Munneke, Jennifer E. Corbett2026-03-11💻 cs

Epistemic Closure: Autonomous Mechanism Completion for Physically Consistent Simulation

Diese Arbeit stellt einen neuro-symbolischen generativen Agenten vor, der durch die autonome Validierung physikalischer Annahmen und die Vervollständigung fehlender Mechanismen das Problem physikalischer Halluzinationen in wissenschaftlichen Simulationen löst und so KI von bloßen Code-Assistenten zu epistemischen Partnern weiterentwickelt.

Yue Wua, Tianhao Su, Rui Hu, Mingchuan Zhao, Shunbo Hu, Deng Pan, Jizhong Huang2026-03-11💻 cs

LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

Der Artikel stellt LogoDiffuser vor, eine trainingsfreie Methode, die mithilfe von letter-bewusster Aufmerksamkeitskontrolle in multimodalen Diffusions-Transformern multilinguale Logo-Designs erzeugt, indem sie Zielzeichen als Bilder statt als Texteingabe nutzt, um eine robuste Strukturkontrolle und stilistische Harmonie zu gewährleisten.

Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk Choi2026-03-11💻 cs

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

Die Arbeit stellt MuxGel vor, einen neuartigen taktile Sensor, der durch räumliche Multiplexierung und ein auf U-Net basierendes Rekonstruktionsframework gleichzeitig hochauflösende visuelle und taktile Informationen erfasst, um den klassischen Zielkonflikt zwischen Berührungserkennung und Vor-Kontakt-Sichtbarkeit bei robotischen Greifern zu lösen.

Zhixian Hu, Zhengtong Xu, Sheeraz Athar, Juan Wachs, Yu She2026-03-11💻 cs

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

Die Studie widerlegt die Annahme, dass das Entfernen bekannter Trigger eine Backdoor vollständig neutralisiert, indem sie nachweist, dass alternative Trigger dieselbe Hintertür aktivieren und somit zukünftige Abwehrmechanismen sich auf die Beseitigung der zugrunde liegenden Merkmalsraum-Richtungen statt auf Eingabe-Trigger konzentrieren müssen.

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs