FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

Die Studie stellt FetalAgents vor, ein neuartiges Multi-Agenten-System, das durch die dynamische Koordination spezialisierter Vision-Experten die Analyse von fetalen Ultraschallbildern und -videos sowie die automatische Generierung strukturierter klinischer Berichte verbessert und dabei sowohl die Genauigkeit als auch die Workflow-Integration übertrifft.

Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan Tian2026-03-11💻 cs

Ensuring Data Freshness in Multi-Rate Task Chains Scheduling

Dieses Paper stellt einen neuen, auf Datenfrische basierenden Scheduling-Rahmen für Multi-Rate-Aufgabenketten vor, der durch die Einführung von Just-in-Time-Versatzzeiten und einen Konsens-Versatz-Suchalgorithmus die End-to-End-Datenfrische in sicherheitskritischen Systemen gewährleistet, ohne dabei die Nachteilige Latenz des Logical-Execution-Time-Paradigmas oder die Ineffizienz von Überabtastung in Kauf zu nehmen.

José Luis Conradi Hoffmann, Antônio Augusto Fröhlich2026-03-11💻 cs

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Die Arbeit stellt SACA (Step-Aware Contrastive Alignment) vor, ein Framework zur Verbesserung der Vision-Language Navigation in kontinuierlichen Umgebungen, das durch schrittweise, wahrnehmungsgegründete Bewertung und dynamisches Batch-Management die Probleme von SFT-bedingten kumulativen Fehlern und RFT-bedingten spärlichen Belohnungen überwindet und damit neue State-of-the-Art-Ergebnisse erzielt.

Haoyuan Li, Rui Liu, Hehe Fan, Yi Yang2026-03-11💻 cs

ENIGMA-360: An Ego-Exo Dataset for Human Behavior Understanding in Industrial Scenarios

Die Arbeit stellt ENIGMA-360 vor, ein neuartiges, in einer realen Industrieanlage aufgezeichnetes Ego-Exo-Datenset mit 360 synchronisierten Videos und detaillierten Annotationen, das als Benchmark für die Erforschung menschlichen Verhaltens und die Entwicklung robuster Sicherheitsysteme dient.

Francesco Ragusa, Rosario Leonardi, Michele Mazzamuto, Daniele Di Mauro, Camillo Quattrocchi, Alessandro Passanisi, Irene D'Ambra, Antonino Furnari, Giovanni Maria Farinella2026-03-11💻 cs

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

Die Arbeit stellt LAP vor, ein sprachbewusstes Planungsmodell, das die Eindeutigkeit von Textbeschreibungen nutzt, um durch die Kombination eines feinabgestimmten Vision-Language-Modells und eines Diffusionsmodells den State-of-the-Art bei der Prozedurplanung in Instruktionsvideos auf drei Benchmarks zu erreichen.

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry2026-03-11💻 cs

Simultaneous Embedding of Two Paths on the Grid

Die Arbeit zeigt, dass die Minimierung der längsten Kante bei der simultanen geometrischen Einbettung zweier Pfade auf einem ganzzahligen Gitter NP-schwer ist, während die Minimierung des Umfangs des umschließenden Gitters für den Fall, dass ein Pfad x-monoton und der andere y-monoton ist, in O(n3/2)O(n^{3/2}) Zeit gelöst werden kann.

Stephen Kobourov, William Lenhart, Giuseppe Liotta, Daniel Perz, Pavel Valtr, Johannes Zink2026-03-11💻 cs

The Richest Paradigm You're Not Using: Commercial Videogames at the Intersection of Human-Computer Interaction and Cognitive Science

Der Artikel argumentiert, dass kommerzielle Videospiele ein bisher unterschätztes, ökologisch valides Forschungsumfeld an der Schnittstelle von Human-Computer-Interaction und Kognitionswissenschaft darstellen, in dem kognitive Prozesse durch die inhärente Spielstruktur und einfache Beobachtungsmethoden systematisch untersucht werden können.

Jaap Munneke, Jennifer E. Corbett2026-03-11💻 cs

Epistemic Closure: Autonomous Mechanism Completion for Physically Consistent Simulation

Diese Arbeit stellt einen neuro-symbolischen generativen Agenten vor, der durch die autonome Validierung physikalischer Annahmen und die Vervollständigung fehlender Mechanismen das Problem physikalischer Halluzinationen in wissenschaftlichen Simulationen löst und so KI von bloßen Code-Assistenten zu epistemischen Partnern weiterentwickelt.

Yue Wua, Tianhao Su, Rui Hu, Mingchuan Zhao, Shunbo Hu, Deng Pan, Jizhong Huang2026-03-11💻 cs

LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

Der Artikel stellt LogoDiffuser vor, eine trainingsfreie Methode, die mithilfe von letter-bewusster Aufmerksamkeitskontrolle in multimodalen Diffusions-Transformern multilinguale Logo-Designs erzeugt, indem sie Zielzeichen als Bilder statt als Texteingabe nutzt, um eine robuste Strukturkontrolle und stilistische Harmonie zu gewährleisten.

Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk Choi2026-03-11💻 cs

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

Die Arbeit stellt MuxGel vor, einen neuartigen taktile Sensor, der durch räumliche Multiplexierung und ein auf U-Net basierendes Rekonstruktionsframework gleichzeitig hochauflösende visuelle und taktile Informationen erfasst, um den klassischen Zielkonflikt zwischen Berührungserkennung und Vor-Kontakt-Sichtbarkeit bei robotischen Greifern zu lösen.

Zhixian Hu, Zhengtong Xu, Sheeraz Athar, Juan Wachs, Yu She2026-03-11💻 cs

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

Die Studie widerlegt die Annahme, dass das Entfernen bekannter Trigger eine Backdoor vollständig neutralisiert, indem sie nachweist, dass alternative Trigger dieselbe Hintertür aktivieren und somit zukünftige Abwehrmechanismen sich auf die Beseitigung der zugrunde liegenden Merkmalsraum-Richtungen statt auf Eingabe-Trigger konzentrieren müssen.

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs

Deblurring structural edges in variable thickness topology optimization via density-gradient-informed projection

Diese Arbeit stellt eine neue, dichte-gradienteninformierte Projektionsmethode vor, die in der Topologieoptimierung mit variabler Dicke unscharfe strukturelle Kanten effektiv wiederherstellt und gleichzeitig unerwünschte Bereiche geringer Dicke unterdrückt, ohne die strukturelle Nachgiebigkeit nennenswert zu beeinträchtigen.

Gabriel Stankiewicz, Chaitanya Dev, Paul Steinmann2026-03-11💻 cs

TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions

Die Arbeit stellt TIMID vor, ein neuartiges Video-Anomalie-Erkennungsframework, das mithilfe schwacher Überwachung und einer Simulationsumgebung zeitabhängige Fehler bei der Ausführung komplexer Roboteraufgaben in Videos auf Frame-Ebene erkennt, wo herkömmliche Modelle und reine Vision-Language-Modelle an mangelnder temporaler Reasoning-Fähigkeit scheitern.

Nerea Gallego (University of Zaragoza), Fernando Salanova (University of Zaragoza), Claudio Mannarano (University of Zaragoza, University of Torino), Cristian Mahulea (University of Zaragoza), Eduardo Montijano (University of Zaragoza)2026-03-11💻 cs

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

Diese Arbeit stellt eine neue Testzeit-Anpassungsmethode namens DCPGN vor, die durch ein Multi-Label-Prototypen-Wachstumsmodul und eine Dual-Clue-Konsistenz zwischen visuellen und textuellen Hinweisen die Herausforderung der Action Anticipation bei der Anpassung von ego- zu exozentrischen Ansichten ohne Zieltrainingsdaten effektiv löst.

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding

Die Autoren stellen mit RA-SSU eine neue feinabgestufte Audio-Visual-Learning-Aufgabe vor, unterstützen diese durch zwei annotierte Datensätze (f-Music und f-Lifescene) und entwickeln das SSUFormer-Modell, das durch innovative Module eine präzise Segmentierung und detaillierte textuelle Beschreibung von Schallquellen auf Frame-Ebene ermöglicht.

Muyi Sun, Yixuan Wang, Hong Wang, Chen Su, Man Zhang, Xingqun Qi, Qi Li, Zhenan Sun2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

Der Paper stellt ConfCtrl vor, einen konfidenzbasierten Interpolationsrahmen für Videodiffusionsmodelle, der durch eine Kalman-inspirierte Korrekturmechanik präzise Kamerasteuerung ermöglicht und gleichzeitig verdeckte Bildbereiche bei großen Blickwinkeländerungen aus nur zwei Eingabebildern konsistent rekonstruiert.

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions

Die Arbeit stellt EmoSURA vor, ein neuartiges Evaluierungsframework, das durch die Zerlegung von emotionalen Sprachbeschreibungen in atomare Einheiten und deren audio-basierte Verifizierung sowie die Einführung des SURABench-Tests eine genauere und zuverlässigere Bewertung als herkömmliche Metriken ermöglicht.

Xin Jing, Andreas Triantafyllopoulos, Jiadong Wang, Shahin Amiriparian, Jun Luo, Björn Schuller2026-03-11💻 cs