Epistemic Closure: Autonomous Mechanism Completion for Physically Consistent Simulation

Diese Arbeit stellt einen neuro-symbolischen generativen Agenten vor, der durch die autonome Validierung physikalischer Annahmen und die Vervollständigung fehlender Mechanismen das Problem physikalischer Halluzinationen in wissenschaftlichen Simulationen löst und so KI von bloßen Code-Assistenten zu epistemischen Partnern weiterentwickelt.

Yue Wua, Tianhao Su, Rui Hu, Mingchuan Zhao, Shunbo Hu, Deng Pan, Jizhong Huang2026-03-11💻 cs

LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

Der Artikel stellt LogoDiffuser vor, eine trainingsfreie Methode, die mithilfe von letter-bewusster Aufmerksamkeitskontrolle in multimodalen Diffusions-Transformern multilinguale Logo-Designs erzeugt, indem sie Zielzeichen als Bilder statt als Texteingabe nutzt, um eine robuste Strukturkontrolle und stilistische Harmonie zu gewährleisten.

Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk Choi2026-03-11💻 cs

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

Die Arbeit stellt MuxGel vor, einen neuartigen taktile Sensor, der durch räumliche Multiplexierung und ein auf U-Net basierendes Rekonstruktionsframework gleichzeitig hochauflösende visuelle und taktile Informationen erfasst, um den klassischen Zielkonflikt zwischen Berührungserkennung und Vor-Kontakt-Sichtbarkeit bei robotischen Greifern zu lösen.

Zhixian Hu, Zhengtong Xu, Sheeraz Athar, Juan Wachs, Yu She2026-03-11💻 cs

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

Die Studie widerlegt die Annahme, dass das Entfernen bekannter Trigger eine Backdoor vollständig neutralisiert, indem sie nachweist, dass alternative Trigger dieselbe Hintertür aktivieren und somit zukünftige Abwehrmechanismen sich auf die Beseitigung der zugrunde liegenden Merkmalsraum-Richtungen statt auf Eingabe-Trigger konzentrieren müssen.

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs

Deblurring structural edges in variable thickness topology optimization via density-gradient-informed projection

Diese Arbeit stellt eine neue, dichte-gradienteninformierte Projektionsmethode vor, die in der Topologieoptimierung mit variabler Dicke unscharfe strukturelle Kanten effektiv wiederherstellt und gleichzeitig unerwünschte Bereiche geringer Dicke unterdrückt, ohne die strukturelle Nachgiebigkeit nennenswert zu beeinträchtigen.

Gabriel Stankiewicz, Chaitanya Dev, Paul Steinmann2026-03-11💻 cs

TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions

Die Arbeit stellt TIMID vor, ein neuartiges Video-Anomalie-Erkennungsframework, das mithilfe schwacher Überwachung und einer Simulationsumgebung zeitabhängige Fehler bei der Ausführung komplexer Roboteraufgaben in Videos auf Frame-Ebene erkennt, wo herkömmliche Modelle und reine Vision-Language-Modelle an mangelnder temporaler Reasoning-Fähigkeit scheitern.

Nerea Gallego (University of Zaragoza), Fernando Salanova (University of Zaragoza), Claudio Mannarano (University of Zaragoza, University of Torino), Cristian Mahulea (University of Zaragoza), Eduardo Montijano (University of Zaragoza)2026-03-11💻 cs

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

Diese Arbeit stellt eine neue Testzeit-Anpassungsmethode namens DCPGN vor, die durch ein Multi-Label-Prototypen-Wachstumsmodul und eine Dual-Clue-Konsistenz zwischen visuellen und textuellen Hinweisen die Herausforderung der Action Anticipation bei der Anpassung von ego- zu exozentrischen Ansichten ohne Zieltrainingsdaten effektiv löst.

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding

Die Autoren stellen mit RA-SSU eine neue feinabgestufte Audio-Visual-Learning-Aufgabe vor, unterstützen diese durch zwei annotierte Datensätze (f-Music und f-Lifescene) und entwickeln das SSUFormer-Modell, das durch innovative Module eine präzise Segmentierung und detaillierte textuelle Beschreibung von Schallquellen auf Frame-Ebene ermöglicht.

Muyi Sun, Yixuan Wang, Hong Wang, Chen Su, Man Zhang, Xingqun Qi, Qi Li, Zhenan Sun2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

Der Paper stellt ConfCtrl vor, einen konfidenzbasierten Interpolationsrahmen für Videodiffusionsmodelle, der durch eine Kalman-inspirierte Korrekturmechanik präzise Kamerasteuerung ermöglicht und gleichzeitig verdeckte Bildbereiche bei großen Blickwinkeländerungen aus nur zwei Eingabebildern konsistent rekonstruiert.

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions

Die Arbeit stellt EmoSURA vor, ein neuartiges Evaluierungsframework, das durch die Zerlegung von emotionalen Sprachbeschreibungen in atomare Einheiten und deren audio-basierte Verifizierung sowie die Einführung des SURABench-Tests eine genauere und zuverlässigere Bewertung als herkömmliche Metriken ermöglicht.

Xin Jing, Andreas Triantafyllopoulos, Jiadong Wang, Shahin Amiriparian, Jun Luo, Björn Schuller2026-03-11💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

Das Paper stellt BrainSTR vor, ein Framework für spatio-temporales kontrastives Lernen, das durch adaptive Phasentrennung und graphbasierte Merkmalsextraktion interpretierbare dynamische Hirnnetzwerke modelliert, um subtile diagnostische Signaturen bei neuropsychiatrischen Erkrankungen wie Autismus, bipolarer Störung und Depression präzise zu identifizieren.

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. Zaiane2026-03-11💻 cs

RecThinker: An Agentic Framework for Tool-Augmented Reasoning in Recommendation

Der Artikel stellt RecThinker vor, ein agentisches Framework für die Empfehlungssysteme, das durch einen „Analyze-Plan-Act"-Ansatz und den autonomen Einsatz von Werkzeugen passive Informationsbeschaffung durch proaktive, selbstgesteuerte Ermittlungen ersetzt, um die Empfehlungsgenauigkeit bei unvollständigen Benutzerprofilen zu verbessern.

Haobo Zhang, Yutao Zhu, Kelong Mao, Tianhao Li, Zhicheng Dou2026-03-11💻 cs

Almost-Optimal Upper and Lower Bounds for Clustering in Low Dimensional Euclidean Spaces

Diese Arbeit verbessert den Laufzeitkomplexitätsfaktor für (1+ε)(1+\varepsilon)-Approximationsalgorithmen des kk-Median- und kk-Means-Clustering in niedrigdimensionalen euklidischen Räumen auf $2^{\tilde{O}(1/\varepsilon)^{d-1}} \cdot n \cdot \text{polylog}(n)$ und beweist unter der Gap-Exponential-Time-Hypothese, dass diese Laufzeit bis auf polylogarithmische Faktoren optimal ist.

Vincent Cohen-Addad, Karthik C. S., David Saulpic, Chris Schwiegelshohn2026-03-11💻 cs

MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

Die Arbeit stellt MissBench vor, einen Benchmark und ein Framework zur Evaluierung multimodaler affektiver Analysen unter realistischen, unausgewogenen Bedingungen fehlender Modalitäten, das durch neue Metriken wie den Modality Equity Index (MEI) und den Modality Learning Index (MLI) verborgene Ungleichheiten und Optimierungsprobleme in bestehenden Modellen aufdeckt.

Tien Anh Pham, Phuong-Anh Nguyen, Duc-Trong Le, Cam-Van Thi Nguyen2026-03-11💻 cs