DeepFact: Co-Evolving Benchmarks and Agents for Deep Research Factuality

Die Arbeit stellt DeepFact vor, ein Framework, das durch einen iterativen Audit-und-Bewertungsprozess (AtS) robuste Benchmarks für die Faktenprüfung von Deep-Research-Berichten schafft und gleichzeitig einen überlegenen Verifikations-Agenten entwickelt, der die Grenzen statischer Evaluierungsmethoden überwindet.

Yukun Huang, Leonardo F. R. Ribeiro, Momchil Hardalov, Bhuwan Dhingra, Markus Dreyer, Venkatesh Saligrama2026-03-09🤖 cs.AI

BlackMirror: Black-Box Backdoor Detection for Text-to-Image Models via Instruction-Response Deviation

Die Arbeit stellt BlackMirror vor, ein trainingsfreies Black-Box-Framework zur Erkennung von Backdoors in Text-zu-Bild-Modellen, das durch die Analyse von Abweichungen zwischen Bildinhalten und Anweisungen sowie deren Stabilität über verschiedene Prompts hinweg neue, visuell diverse Angriffe effektiv identifiziert.

Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Xilin Zhao, Xiaochun Cao, Qingming Huang2026-03-09🤖 cs.AI

XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

Diese Arbeit stellt einen systematischen XAI-Ansatz vor, der Roh-Ausführungsprotokolle von LLM-Coding-Agenten durch eine domänenspezifische Fehler-Taxonomie, automatische Annotation und hybride Erklärungen in verständliche, visuelle und handlungsorientierte Insights umwandelt, wodurch die Fehleranalyse und -behebung für Entwickler signifikant beschleunigt und präzisiert wird.

Arun Joshi2026-03-09🤖 cs.AI

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

Diese Studie entwickelt interpretierbare Modelle, die psychologische Theorien über die Interaktion von Person und Situation mit Sprachdaten kombinieren, um das dynamische Wohlbefinden in sozialen Medien präziser und nachvollziehbarer zu erfassen als rein embedding-basierte Ansätze.

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

Die vorgestellte Arbeit führt das "Skeleton-to-Image Encoding" (S2I) ein, eine Methode, die 3D-Gerüstsequenzen in bildähnliche Darstellungen umwandelt, um leistungsstarke, visuell vortrainierte Modelle für das selbstüberwachte Lernen von Skelettrepräsentationen nutzbar zu machen und so die Verarbeitung heterogener Skelettdaten zu vereinheitlichen.

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

An Interactive Multi-Agent System for Evaluation of New Product Concepts

Diese Studie stellt ein automatisiertes, auf einem Large-Language-Model basierendes Multi-Agenten-System vor, das durch spezialisierte virtuelle Agenten, Retrieval-Augmented Generation und Feinabstimmung auf Fachdaten objektive Bewertungen von Produktkonzepten hinsichtlich technischer und marktbezogener Machbarkeit ermöglicht und dabei die Effizienz und Konsistenz mit Expertenmeinungen nachweist.

Bin Xuan, Ruo Ai, Hakyeon Lee2026-03-09🤖 cs.AI

Technical Report: Automated Optical Inspection of Surgical Instruments

Dieser Bericht beschreibt die Entwicklung eines automatisierten optischen Inspektionssystems auf Basis von Deep-Learning-Architekturen wie YOLOv8, ResNet-152 und EfficientNet-b4, das unter Einbeziehung von Industriepartnern aus Sialkot auf einem Datensatz von 4.414 Bildern trainiert wurde, um Fertigungsfehler bei chirurgischen Instrumenten aus Pakistan zu erkennen und so die Patientensicherheit sowie die Produktionsqualität zu gewährleisten.

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

Der Artikel stellt MM-ISTS vor, ein multimodales Framework, das durch die Integration von Vision-Text-LLMs, einem neuartigen Zwei-Stage-Kodierungsmechanismus und einer adaptiven Abfrage-basierten Merkmalsextraktion die Vorhersage unregelmäßig abgetasteter Zeitreihen verbessert, indem es zeitliche, visuelle und textuelle Kontexte effektiv verknüpft.

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Diese Arbeit stellt das diagnostische Benchmark ICBench vor, um das Phänomen der „linguistischen Blindheit" in Vision-Language-Action-Modellen aufzudecken, und schlägt mit IGAR eine trainingsfreie Methode zur Nachkalibrierung der Aufmerksamkeit vor, die die Zuverlässigkeit bei widersprüchlichen Sprachanweisungen ohne Architekturänderungen wiederherstellt.

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

Die Arbeit stellt MASFactory vor, ein graphenzentriertes Framework zur Orchestrierung von LLM-basierten Multi-Agenten-Systemen, das durch die neuartige „Vibe Graphing"-Methode die Umwandlung natürlicher Sprachabsichten in ausführbare Workflow-Graphen ermöglicht und dabei Wiederverwendbarkeit sowie einfache Integration externer Kontextquellen verbessert.

Yang Liu, Jinxuan Cai, Yishen Li, Qi Meng, Zedi Liu, Xin Li, Chen Qian, Chuan Shi, Cheng Yang2026-03-09🤖 cs.AI