From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

Die Studie stellt vor, dass der autonome KI-Agent „Sentinel" durch die Verwendung des Model Context Protocol (MCP) klinische Triage-Daten aus der Fernüberwachung von Patienten mit höherer Sensitivität und Konsistenz als menschliche Ärzte klassifiziert und dabei eine skalierbare, kosteneffiziente Lösung für die Überlastung des medizinischen Personals bietet.

Seunghwan Kim (AnsibleHealth Inc., San Francisco, USA), Tiffany H. Kung (AnsibleHealth Inc., San Francisco, USA, Stanford School of Medicine, Stanford, USA), Heena Verma (AnsibleHealth Inc., San Francisco, USA), Dilan Edirisinghe (AnsibleHealth Inc., San Francisco, USA), Kaveh Sedehi (AnsibleHealth Inc., San Francisco, USA), Johanna Alvarez (AnsibleHealth Inc., San Francisco, USA), Diane Shilling (AnsibleHealth Inc., San Francisco, USA), Audra Lisa Doyle (AnsibleHealth Inc., San Francisco, USA), Ajit Chary (AnsibleHealth Inc., San Francisco, USA), William Borden (AnsibleHealth Inc., San Francisco, USA, George Washington University, Washington, D.C., USA), Ming Jack Po (AnsibleHealth Inc., San Francisco, USA)2026-03-11🤖 cs.AI

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Die Arbeit argumentiert, dass Fortschritte in der logischen推理 von KI-Systemen über drei mechanistische Pfade (deduktive Selbstinferenz, induktive Kontexterkennung und abduktive Selbstmodellierung) unweigerlich zu einer gefährlichen situativen Selbstwahrnehmung führen, und schlägt daher neue Sicherheitsmaßnahmen wie einen „Spiegel-Test"-Benchmark vor, um diese Eskalation zu verhindern.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

LooComp: Leverage Leave-One-Out Strategy to Encoder-only Transformer for Efficient Query-aware Context Compression

Das Paper stellt LooComp vor, einen effizienten, auf einem Encoder-only Transformer basierenden Ansatz, der mittels einer Leave-One-Out-Strategie und eines margin-basierten Trainings kritische Sätze für die kontextbasierte Beantwortung von Fragen identifiziert, um die Genauigkeit und Skalierbarkeit von Retrieval-Augmented-Generation bei gleichzeitig reduzierten Kosten und Speicherbedarf zu verbessern.

Thao Do, Dinh Phu Tran, An Vo, Seon Kwon Kim, Daeyoung Kim2026-03-11💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

Diese Studie analysiert systematisch vier Kontrastive-Decoding-Strategien für Large Audio Language Models, identifiziert Audio-Aware und Audio Contrastive Decoding als effektivste Methoden und stellt mittels eines Übergangsmatrix-Rahmens fest, dass diese zwar Unsicherheiten und falsche Audio-Negationen korrigieren, aber keine fehlerhaften Schlussfolgerungen beheben können, wodurch sich Leitlinien für die architekturspezifische Eignung ergeben.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi Lee2026-03-11💬 cs.CL

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

Die Arbeit stellt TA-Mem vor, ein neuartiges, tool-augmentiertes Framework für autonome Gedächtnisabrufe in großen Sprachmodellen, das durch adaptive Extraktion, eine multi-indexierte Datenbank und einen selbstständigen Abruf-Agenten die Flexibilität und Leistung bei langfristigen konversationellen Frage-Antwort-Aufgaben im Vergleich zu bestehenden Ansätzen signifikant verbessert.

Mengwei Yuan, Jianan Liu, Jing Yang, Xianyou Li, Weiran Yan, Yichao Wu, Penghao Liang2026-03-11💬 cs.CL

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

Die Arbeit stellt TaSR-RAG vor, ein taxonomiegestütztes Framework für die strukturierte Beweisfindung, das komplexe Fragen in geordnete Tripel-Subabfragen zerlegt und durch hybrides Matching sowie eine explizite Entitätsbindung die Genauigkeit und Nachvollziehbarkeit von Retrieval-Augmented-Generation-Systemen bei Multi-Hop-Fragestellungen signifikant verbessert.

Jiashuo Sun, Yixuan Xie, Jimeng Shi, Shaowen Wang, Jiawei Han2026-03-11🤖 cs.AI

Quantifying and extending the coverage of spatial categorization data sets

Die Studie zeigt, dass durch die Nutzung von Large Language Models zur Generierung von Labels die Topological Relations Picture Series (TRPS) um 42 neue Szenen erweitert werden kann, um eine bessere Abdeckung des Raums möglicher Szenen zu erreichen und die Skalierung auf Datensätze mit vielen Sprachen und Hunderten von Szenen zu ermöglichen.

Wanchun Li, Alexandra Carstensen, Yang Xu, Terry Regier, Charles Kemp2026-03-11💬 cs.CL

Reward Prediction with Factorized World States

Die Arbeit stellt StateFactory vor, eine Methode zur Umwandlung unstrukturierter Beobachtungen in hierarchische Objekt-Attribut-Strukturen mittels Sprachmodelle, die eine generalisierbare Belohnungsvorhersage durch semantische Ähnlichkeitsmessung ermöglicht und dadurch die Planungsleistung von Agenten in verschiedenen Domänen signifikant verbessert.

Yijun Shen, Delong Chen, Xianming Hu, Jiaming Mi, Hongbo Zhao, Kai Zhang, Pascale Fung2026-03-11💬 cs.CL

LLM as a Meta-Judge: Synthetic Data for NLP Evaluation Metric Validation

Die Arbeit stellt „LLM as a Meta-Judge" vor, ein skalierbares Framework, das mittels kontrollierter semantischer Degradation realer Daten durch LLMs synthetische Evaluierungsdatensätze generiert und damit eine zuverlässige, kosteneffiziente Alternative zur menschlichen Validierung von NLG-Metriken bietet, die in multilingualen Szenarien eine Übereinstimmung von über 0,9 mit menschlichen Benchmarks erreicht.

Lukáš Eigler, Jindřich Libovický, David Hurych2026-03-11💬 cs.CL

CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research?

Die Arbeit stellt CyberThreat-Eval vor, ein neuartiges, von Experten annotiertes Benchmark, das auf realen CTI-Arbeitsabläufen basiert und die Grenzen aktueller LLMs bei der Automatisierung von Threat-Intelligence-Forschung durch praxisnahe Aufgaben und analystenzentrierte Metriken aufzeigt.

Xiangsen Chen, Xuan Feng, Shuo Chen, Matthieu Maitre, Sudipto Rakshit, Diana Duvieilh, Ashley Picone, Nan Tang2026-03-11💬 cs.CL