cs.CL Arbeiten | Gist.Science

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

Das Papier stellt DuplexCascade vor, ein VAD-freies, kaskadiertes ASR-LLM-TTS-System, das durch Mikro-Turn-Interaktionen und spezielle Steuertoken voll-duplexe Sprachdialoge mit hoher Konversationsintelligenz ermöglicht.

Jianing Yang, Yusuke Fujita, Yui SudoWed, 11 Ma🤖 cs.AI

DEO: Training-Free Direct Embedding Optimization for Negation-Aware Retrieval

Die Arbeit stellt DEO vor, eine trainingsfreie Methode zur direkten Optimierung von Embeddings, die die Genauigkeit von Suchanfragen mit Negationen und Ausschlüssen in Text- und Multimodal-Retrievalsystemen ohne zusätzliche Trainingsdaten oder Modell-Updates signifikant verbessert.

Taegyeong Lee, Jiwon Park, Seunghyun Hwang, JooYoung JangWed, 11 Ma💬 cs.CL

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Die Arbeit argumentiert, dass Fortschritte in der logischen推理 von KI-Systemen über drei mechanistische Pfade (deduktive Selbstinferenz, induktive Kontexterkennung und abduktive Selbstmodellierung) unweigerlich zu einer gefährlichen situativen Selbstwahrnehmung führen, und schlägt daher neue Sicherheitsmaßnahmen wie einen „Spiegel-Test"-Benchmark vor, um diese Eskalation zu verhindern.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya ChaudharyWed, 11 Ma🤖 cs.AI

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

Die Studie zeigt, dass emotionale Töne die Aufmerksamkeitsgeometrie von Large Language Models systematisch verändern, und stellt mit dem AURA-QA-Datensatz sowie einem emotionalen Regularisierungsrahmen neue Methoden vor, um die Leseverständnisleistung unter emotionalen Distributionsschwankungen zu verbessern.

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry HeckWed, 11 Ma🤖 cs.AI

SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

Die Arbeit stellt SPAR-K vor, einen modalspezifischen Early-Exit-Rahmen für interleaved gesprochene Sprachmodelle, der durch einen alternierenden Tiefenplan mit periodischen Volltiefen-Schritten die Inferenzgeschwindigkeit signifikant steigert, ohne dabei die akustische Qualität oder die Antwortgenauigkeit merklich zu beeinträchtigen.

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi LeeWed, 11 Ma💬 cs.CL

LooComp: Leverage Leave-One-Out Strategy to Encoder-only Transformer for Efficient Query-aware Context Compression

Das Paper stellt LooComp vor, einen effizienten, auf einem Encoder-only Transformer basierenden Ansatz, der mittels einer Leave-One-Out-Strategie und eines margin-basierten Trainings kritische Sätze für die kontextbasierte Beantwortung von Fragen identifiziert, um die Genauigkeit und Skalierbarkeit von Retrieval-Augmented-Generation bei gleichzeitig reduzierten Kosten und Speicherbedarf zu verbessern.

Thao Do, Dinh Phu Tran, An Vo, Seon Kwon Kim, Daeyoung KimWed, 11 Ma💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

Diese Studie analysiert systematisch vier Kontrastive-Decoding-Strategien für Large Audio Language Models, identifiziert Audio-Aware und Audio Contrastive Decoding als effektivste Methoden und stellt mittels eines Übergangsmatrix-Rahmens fest, dass diese zwar Unsicherheiten und falsche Audio-Negationen korrigieren, aber keine fehlerhaften Schlussfolgerungen beheben können, wodurch sich Leitlinien für die architekturspezifische Eignung ergeben.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

Diagnosing and Repairing Citation Failures in Generative Engine Optimization

Diese Arbeit stellt AgentGEO vor, ein agentic System, das mithilfe einer neuen Taxonomie von Zitierfehlern gezielt Inhalte optimiert und so die Zitierquote um über 40 % steigert, während es gleichzeitig die Grenzen generischer Optimierungsansätze für die gerechte Sichtbarkeit aufzeigt.

Zhihua Tian, Yuhan Chen, Yao Tang, Jian Liu, Ruoxi JiaWed, 11 Ma💬 cs.CL

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

Die Arbeit stellt TA-Mem vor, ein neuartiges, tool-augmentiertes Framework für autonome Gedächtnisabrufe in großen Sprachmodellen, das durch adaptive Extraktion, eine multi-indexierte Datenbank und einen selbstständigen Abruf-Agenten die Flexibilität und Leistung bei langfristigen konversationellen Frage-Antwort-Aufgaben im Vergleich zu bestehenden Ansätzen signifikant verbessert.

Mengwei Yuan, Jianan Liu, Jing Yang, Xianyou Li, Weiran Yan, Yichao Wu, Penghao LiangWed, 11 Ma💬 cs.CL

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

Die Arbeit stellt TaSR-RAG vor, ein taxonomiegestütztes Framework für die strukturierte Beweisfindung, das komplexe Fragen in geordnete Tripel-Subabfragen zerlegt und durch hybrides Matching sowie eine explizite Entitätsbindung die Genauigkeit und Nachvollziehbarkeit von Retrieval-Augmented-Generation-Systemen bei Multi-Hop-Fragestellungen signifikant verbessert.

Jiashuo Sun, Yixuan Xie, Jimeng Shi, Shaowen Wang, Jiawei HanWed, 11 Ma🤖 cs.AI

Quantifying and extending the coverage of spatial categorization data sets

Die Studie zeigt, dass durch die Nutzung von Large Language Models zur Generierung von Labels die Topological Relations Picture Series (TRPS) um 42 neue Szenen erweitert werden kann, um eine bessere Abdeckung des Raums möglicher Szenen zu erreichen und die Skalierung auf Datensätze mit vielen Sprachen und Hunderten von Szenen zu ermöglichen.

Wanchun Li, Alexandra Carstensen, Yang Xu, Terry Regier, Charles KempWed, 11 Ma💬 cs.CL

Reward Prediction with Factorized World States

Die Arbeit stellt StateFactory vor, eine Methode zur Umwandlung unstrukturierter Beobachtungen in hierarchische Objekt-Attribut-Strukturen mittels Sprachmodelle, die eine generalisierbare Belohnungsvorhersage durch semantische Ähnlichkeitsmessung ermöglicht und dadurch die Planungsleistung von Agenten in verschiedenen Domänen signifikant verbessert.

Yijun Shen, Delong Chen, Xianming Hu, Jiaming Mi, Hongbo Zhao, Kai Zhang, Pascale FungWed, 11 Ma💬 cs.CL

LLM as a Meta-Judge: Synthetic Data for NLP Evaluation Metric Validation

Die Arbeit stellt „LLM as a Meta-Judge" vor, ein skalierbares Framework, das mittels kontrollierter semantischer Degradation realer Daten durch LLMs synthetische Evaluierungsdatensätze generiert und damit eine zuverlässige, kosteneffiziente Alternative zur menschlichen Validierung von NLG-Metriken bietet, die in multilingualen Szenarien eine Übereinstimmung von über 0,9 mit menschlichen Benchmarks erreicht.

Lukáš Eigler, Jindřich Libovický, David HurychWed, 11 Ma💬 cs.CL

Investigating Gender Stereotypes in Large Language Models via Social Determinants of Health

Diese Studie untersucht, wie Large Language Models in französischen Patientenakten geschlechtsspezifische Stereotype im Kontext sozialer Gesundheitsdeterminanten reproduzieren und schlägt vor, Wechselwirkungen zwischen diesen Faktoren in die Bias-Bewertung aufzunehmen.

Trung Hieu Ngo, Adrien Bazoge, Solen Quiniou, Pierre-Antoine Gourraud, Emmanuel MorinWed, 11 Ma🤖 cs.AI

Common Sense vs. Morality: The Curious Case of Narrative Focus Bias in LLMs

Die Studie CoMoral zeigt, dass aktuelle Large Language Models moralisches Denken oft über das gesunden Menschenverstand stellen und dabei eine narrative Verzerrung aufweisen, bei der sie logische Widersprüche eher bei Nebenfiguren als bei der Hauptfigur erkennen.

Saugata Purkayastha, Pranav Kushare, Pragya Paramita Pal, Sukannya PurkayasthaWed, 11 Ma🤖 cs.AI

CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research?

Die Arbeit stellt CyberThreat-Eval vor, ein neuartiges, von Experten annotiertes Benchmark, das auf realen CTI-Arbeitsabläufen basiert und die Grenzen aktueller LLMs bei der Automatisierung von Threat-Intelligence-Forschung durch praxisnahe Aufgaben und analystenzentrierte Metriken aufzeigt.

Xiangsen Chen, Xuan Feng, Shuo Chen, Matthieu Maitre, Sudipto Rakshit, Diana Duvieilh, Ashley Picone, Nan TangWed, 11 Ma💬 cs.CL

Modelling the Diachronic Emergence of Phoneme Frequency Distributions

Die Studie zeigt, dass ein stochastisches Modell der phonologischen Evolution, das funktionale Last und eine Tendenz zu einer bevorzugten Inventargröße berücksichtigt, die beobachteten statistischen Regularitäten von Phonemfrequenzen und die Beziehung zwischen Inventargröße und relativer Entropie als natürliche Folge historischer Sprachveränderungen erklären kann.

Fermín Moscoso del Prado Martín, Suchir SalhanWed, 11 Ma💬 cs.CL

You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

Die Studie zeigt, dass Sprachmodelle durch das Training auf semantisch treuen Umschreibungen subliminal Präferenzen von einem Lehrermodell übernehmen können, selbst wenn der Inhalt diese Präferenzen explizit widerspricht, was die Wirksamkeit rein inhaltsbasierter Sicherheitsfilter in Frage stellt.

Isaia Gisler (ETH Zürich), Zhonghao He (University of Cambridge), Tianyi Qiu (Peking University)Wed, 11 Ma🤖 cs.LG

Enhancing Debunking Effectiveness through LLM-based Personality Adaptation

Diese Studie stellt eine Methode vor, bei der Large Language Models genutzt werden, um Fakenews-Entlarvungen basierend auf den Big-Five-Persönlichkeitseigenschaften zu personalisieren und deren Wirksamkeit durch automatische Evaluierung zu bestätigen, wobei sich zeigt, dass solche maßgeschneiderten Botschaften überzeugender sind, gleichzeitig aber ethische Bedenken aufwerfen.

Pietro Dell'Oglio, Alessandro Bondielli, Francesco Marcelloni, Lucia C. PassaroWed, 11 Ma🤖 cs.AI

ALARM: Audio-Language Alignment for Reasoning Models

Die Arbeit stellt ALARM vor, ein 4-Milliarden-Parameter-Audio-Sprachmodell, das durch einen neuartigen Selbst-Umschreibungsansatz, die Fusion mehrerer Audio-Encoder und ein umfangreiches Multi-Task-Trainingskorpus die Herausforderungen der Audio-Sprach-Ausrichtung bei Reasoning-Modellen löst und dabei neue State-of-the-Art-Ergebnisse auf Audio-Reasoning-Benchmarks erzielt.

Petr Grinberg, Hassan ShahmohammadiWed, 11 Ma💬 cs.CL

← Zurück Weiter →