cs.CL Arbeiten | Gist.Science

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

Die Studie stellt vor, dass der autonome KI-Agent „Sentinel" durch die Verwendung des Model Context Protocol (MCP) klinische Triage-Daten aus der Fernüberwachung von Patienten mit höherer Sensitivität und Konsistenz als menschliche Ärzte klassifiziert und dabei eine skalierbare, kosteneffiziente Lösung für die Überlastung des medizinischen Personals bietet.

Exclusive Self Attention

Die Arbeit stellt die „Exclusive Self Attention" (XSA) vor, eine einfache Modifikation des Self-Attention-Mechanismus, die durch den Ausschluss der eigenen Token-Information die Kontextmodellierung verbessert und bei Sprachmodellierungsaufgaben konsistent bessere Ergebnisse als das Standardverfahren erzielt.

Shuangfei Zhai2026-03-11🤖 cs.LG

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Diese Studie diagnostiziert die Leistungslücke zwischen textbasierten und bildbasierten Eingaben in multimodalen Sprachmodellen, identifiziert Lesefehler als Hauptursache und schlägt eine Selbst-Distillation vor, um das Textverständnis in Bilddokumenten drastisch zu verbessern.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai2026-03-11💬 cs.CL

Bioalignment: Measuring and Improving LLM Disposition Toward Biological Systems for AI Safety

Die Studie zeigt, dass sich durch gezieltes Fine-Tuning mit biologischem Fachwissen die Tendenz von Sprachmodellen zugunsten biologischer statt synthetischer Lösungen signifikant verbessern lässt, ohne dabei die allgemeinen Fähigkeiten der Modelle zu beeinträchtigen.

Trent R Northen, Mingxun Wang2026-03-11💬 cs.CL

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

Das Papier stellt DuplexCascade vor, ein VAD-freies, kaskadiertes ASR-LLM-TTS-System, das durch Mikro-Turn-Interaktionen und spezielle Steuertoken voll-duplexe Sprachdialoge mit hoher Konversationsintelligenz ermöglicht.

Jianing Yang, Yusuke Fujita, Yui Sudo2026-03-11🤖 cs.AI

DEO: Training-Free Direct Embedding Optimization for Negation-Aware Retrieval

Die Arbeit stellt DEO vor, eine trainingsfreie Methode zur direkten Optimierung von Embeddings, die die Genauigkeit von Suchanfragen mit Negationen und Ausschlüssen in Text- und Multimodal-Retrievalsystemen ohne zusätzliche Trainingsdaten oder Modell-Updates signifikant verbessert.

Taegyeong Lee, Jiwon Park, Seunghyun Hwang, JooYoung Jang2026-03-11💬 cs.CL

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Die Arbeit argumentiert, dass Fortschritte in der logischen推理 von KI-Systemen über drei mechanistische Pfade (deduktive Selbstinferenz, induktive Kontexterkennung und abduktive Selbstmodellierung) unweigerlich zu einer gefährlichen situativen Selbstwahrnehmung führen, und schlägt daher neue Sicherheitsmaßnahmen wie einen „Spiegel-Test"-Benchmark vor, um diese Eskalation zu verhindern.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

Die Studie zeigt, dass emotionale Töne die Aufmerksamkeitsgeometrie von Large Language Models systematisch verändern, und stellt mit dem AURA-QA-Datensatz sowie einem emotionalen Regularisierungsrahmen neue Methoden vor, um die Leseverständnisleistung unter emotionalen Distributionsschwankungen zu verbessern.

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry Heck2026-03-11🤖 cs.AI

SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

Die Arbeit stellt SPAR-K vor, einen modalspezifischen Early-Exit-Rahmen für interleaved gesprochene Sprachmodelle, der durch einen alternierenden Tiefenplan mit periodischen Volltiefen-Schritten die Inferenzgeschwindigkeit signifikant steigert, ohne dabei die akustische Qualität oder die Antwortgenauigkeit merklich zu beeinträchtigen.

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi Lee2026-03-11💬 cs.CL

LooComp: Leverage Leave-One-Out Strategy to Encoder-only Transformer for Efficient Query-aware Context Compression

Das Paper stellt LooComp vor, einen effizienten, auf einem Encoder-only Transformer basierenden Ansatz, der mittels einer Leave-One-Out-Strategie und eines margin-basierten Trainings kritische Sätze für die kontextbasierte Beantwortung von Fragen identifiziert, um die Genauigkeit und Skalierbarkeit von Retrieval-Augmented-Generation bei gleichzeitig reduzierten Kosten und Speicherbedarf zu verbessern.

Thao Do, Dinh Phu Tran, An Vo, Seon Kwon Kim, Daeyoung Kim2026-03-11💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

Diese Studie analysiert systematisch vier Kontrastive-Decoding-Strategien für Large Audio Language Models, identifiziert Audio-Aware und Audio Contrastive Decoding als effektivste Methoden und stellt mittels eines Übergangsmatrix-Rahmens fest, dass diese zwar Unsicherheiten und falsche Audio-Negationen korrigieren, aber keine fehlerhaften Schlussfolgerungen beheben können, wodurch sich Leitlinien für die architekturspezifische Eignung ergeben.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi Lee2026-03-11💬 cs.CL

Diagnosing and Repairing Citation Failures in Generative Engine Optimization

Diese Arbeit stellt AgentGEO vor, ein agentic System, das mithilfe einer neuen Taxonomie von Zitierfehlern gezielt Inhalte optimiert und so die Zitierquote um über 40 % steigert, während es gleichzeitig die Grenzen generischer Optimierungsansätze für die gerechte Sichtbarkeit aufzeigt.

Zhihua Tian, Yuhan Chen, Yao Tang, Jian Liu, Ruoxi Jia2026-03-11💬 cs.CL

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

Die Arbeit stellt TA-Mem vor, ein neuartiges, tool-augmentiertes Framework für autonome Gedächtnisabrufe in großen Sprachmodellen, das durch adaptive Extraktion, eine multi-indexierte Datenbank und einen selbstständigen Abruf-Agenten die Flexibilität und Leistung bei langfristigen konversationellen Frage-Antwort-Aufgaben im Vergleich zu bestehenden Ansätzen signifikant verbessert.

Mengwei Yuan, Jianan Liu, Jing Yang, Xianyou Li, Weiran Yan, Yichao Wu, Penghao Liang2026-03-11💬 cs.CL

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

Die Arbeit stellt TaSR-RAG vor, ein taxonomiegestütztes Framework für die strukturierte Beweisfindung, das komplexe Fragen in geordnete Tripel-Subabfragen zerlegt und durch hybrides Matching sowie eine explizite Entitätsbindung die Genauigkeit und Nachvollziehbarkeit von Retrieval-Augmented-Generation-Systemen bei Multi-Hop-Fragestellungen signifikant verbessert.

Jiashuo Sun, Yixuan Xie, Jimeng Shi, Shaowen Wang, Jiawei Han2026-03-11🤖 cs.AI

Quantifying and extending the coverage of spatial categorization data sets

Die Studie zeigt, dass durch die Nutzung von Large Language Models zur Generierung von Labels die Topological Relations Picture Series (TRPS) um 42 neue Szenen erweitert werden kann, um eine bessere Abdeckung des Raums möglicher Szenen zu erreichen und die Skalierung auf Datensätze mit vielen Sprachen und Hunderten von Szenen zu ermöglichen.

Wanchun Li, Alexandra Carstensen, Yang Xu, Terry Regier, Charles Kemp2026-03-11💬 cs.CL

Reward Prediction with Factorized World States

Die Arbeit stellt StateFactory vor, eine Methode zur Umwandlung unstrukturierter Beobachtungen in hierarchische Objekt-Attribut-Strukturen mittels Sprachmodelle, die eine generalisierbare Belohnungsvorhersage durch semantische Ähnlichkeitsmessung ermöglicht und dadurch die Planungsleistung von Agenten in verschiedenen Domänen signifikant verbessert.

Yijun Shen, Delong Chen, Xianming Hu, Jiaming Mi, Hongbo Zhao, Kai Zhang, Pascale Fung2026-03-11💬 cs.CL

LLM as a Meta-Judge: Synthetic Data for NLP Evaluation Metric Validation

Die Arbeit stellt „LLM as a Meta-Judge" vor, ein skalierbares Framework, das mittels kontrollierter semantischer Degradation realer Daten durch LLMs synthetische Evaluierungsdatensätze generiert und damit eine zuverlässige, kosteneffiziente Alternative zur menschlichen Validierung von NLG-Metriken bietet, die in multilingualen Szenarien eine Übereinstimmung von über 0,9 mit menschlichen Benchmarks erreicht.

Lukáš Eigler, Jindřich Libovický, David Hurych2026-03-11💬 cs.CL

Investigating Gender Stereotypes in Large Language Models via Social Determinants of Health

Diese Studie untersucht, wie Large Language Models in französischen Patientenakten geschlechtsspezifische Stereotype im Kontext sozialer Gesundheitsdeterminanten reproduzieren und schlägt vor, Wechselwirkungen zwischen diesen Faktoren in die Bias-Bewertung aufzunehmen.

Trung Hieu Ngo, Adrien Bazoge, Solen Quiniou, Pierre-Antoine Gourraud, Emmanuel Morin2026-03-11🤖 cs.AI

Common Sense vs. Morality: The Curious Case of Narrative Focus Bias in LLMs

Die Studie CoMoral zeigt, dass aktuelle Large Language Models moralisches Denken oft über das gesunden Menschenverstand stellen und dabei eine narrative Verzerrung aufweisen, bei der sie logische Widersprüche eher bei Nebenfiguren als bei der Hauptfigur erkennen.

Saugata Purkayastha, Pranav Kushare, Pragya Paramita Pal, Sukannya Purkayastha2026-03-11🤖 cs.AI

CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research?

Die Arbeit stellt CyberThreat-Eval vor, ein neuartiges, von Experten annotiertes Benchmark, das auf realen CTI-Arbeitsabläufen basiert und die Grenzen aktueller LLMs bei der Automatisierung von Threat-Intelligence-Forschung durch praxisnahe Aufgaben und analystenzentrierte Metriken aufzeigt.

Xiangsen Chen, Xuan Feng, Shuo Chen, Matthieu Maitre, Sudipto Rakshit, Diana Duvieilh, Ashley Picone, Nan Tang2026-03-11💬 cs.CL

← Zurück Weiter →