The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Die Arbeit argumentiert, dass Fortschritte in der logischen推理 von KI-Systemen über drei mechanistische Pfade (deduktive Selbstinferenz, induktive Kontexterkennung und abduktive Selbstmodellierung) unweigerlich zu einer gefährlichen situativen Selbstwahrnehmung führen, und schlägt daher neue Sicherheitsmaßnahmen wie einen „Spiegel-Test"-Benchmark vor, um diese Eskalation zu verhindern.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya ChaudharyWed, 11 Ma🤖 cs.AI

LooComp: Leverage Leave-One-Out Strategy to Encoder-only Transformer for Efficient Query-aware Context Compression

Das Paper stellt LooComp vor, einen effizienten, auf einem Encoder-only Transformer basierenden Ansatz, der mittels einer Leave-One-Out-Strategie und eines margin-basierten Trainings kritische Sätze für die kontextbasierte Beantwortung von Fragen identifiziert, um die Genauigkeit und Skalierbarkeit von Retrieval-Augmented-Generation bei gleichzeitig reduzierten Kosten und Speicherbedarf zu verbessern.

Thao Do, Dinh Phu Tran, An Vo, Seon Kwon Kim, Daeyoung KimWed, 11 Ma💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

Diese Studie analysiert systematisch vier Kontrastive-Decoding-Strategien für Large Audio Language Models, identifiziert Audio-Aware und Audio Contrastive Decoding als effektivste Methoden und stellt mittels eines Übergangsmatrix-Rahmens fest, dass diese zwar Unsicherheiten und falsche Audio-Negationen korrigieren, aber keine fehlerhaften Schlussfolgerungen beheben können, wodurch sich Leitlinien für die architekturspezifische Eignung ergeben.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

Die Arbeit stellt TA-Mem vor, ein neuartiges, tool-augmentiertes Framework für autonome Gedächtnisabrufe in großen Sprachmodellen, das durch adaptive Extraktion, eine multi-indexierte Datenbank und einen selbstständigen Abruf-Agenten die Flexibilität und Leistung bei langfristigen konversationellen Frage-Antwort-Aufgaben im Vergleich zu bestehenden Ansätzen signifikant verbessert.

Mengwei Yuan, Jianan Liu, Jing Yang, Xianyou Li, Weiran Yan, Yichao Wu, Penghao LiangWed, 11 Ma💬 cs.CL

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

Die Arbeit stellt TaSR-RAG vor, ein taxonomiegestütztes Framework für die strukturierte Beweisfindung, das komplexe Fragen in geordnete Tripel-Subabfragen zerlegt und durch hybrides Matching sowie eine explizite Entitätsbindung die Genauigkeit und Nachvollziehbarkeit von Retrieval-Augmented-Generation-Systemen bei Multi-Hop-Fragestellungen signifikant verbessert.

Jiashuo Sun, Yixuan Xie, Jimeng Shi, Shaowen Wang, Jiawei HanWed, 11 Ma🤖 cs.AI

Quantifying and extending the coverage of spatial categorization data sets

Die Studie zeigt, dass durch die Nutzung von Large Language Models zur Generierung von Labels die Topological Relations Picture Series (TRPS) um 42 neue Szenen erweitert werden kann, um eine bessere Abdeckung des Raums möglicher Szenen zu erreichen und die Skalierung auf Datensätze mit vielen Sprachen und Hunderten von Szenen zu ermöglichen.

Wanchun Li, Alexandra Carstensen, Yang Xu, Terry Regier, Charles KempWed, 11 Ma💬 cs.CL

Reward Prediction with Factorized World States

Die Arbeit stellt StateFactory vor, eine Methode zur Umwandlung unstrukturierter Beobachtungen in hierarchische Objekt-Attribut-Strukturen mittels Sprachmodelle, die eine generalisierbare Belohnungsvorhersage durch semantische Ähnlichkeitsmessung ermöglicht und dadurch die Planungsleistung von Agenten in verschiedenen Domänen signifikant verbessert.

Yijun Shen, Delong Chen, Xianming Hu, Jiaming Mi, Hongbo Zhao, Kai Zhang, Pascale FungWed, 11 Ma💬 cs.CL

LLM as a Meta-Judge: Synthetic Data for NLP Evaluation Metric Validation

Die Arbeit stellt „LLM as a Meta-Judge" vor, ein skalierbares Framework, das mittels kontrollierter semantischer Degradation realer Daten durch LLMs synthetische Evaluierungsdatensätze generiert und damit eine zuverlässige, kosteneffiziente Alternative zur menschlichen Validierung von NLG-Metriken bietet, die in multilingualen Szenarien eine Übereinstimmung von über 0,9 mit menschlichen Benchmarks erreicht.

Lukáš Eigler, Jindřich Libovický, David HurychWed, 11 Ma💬 cs.CL

CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research?

Die Arbeit stellt CyberThreat-Eval vor, ein neuartiges, von Experten annotiertes Benchmark, das auf realen CTI-Arbeitsabläufen basiert und die Grenzen aktueller LLMs bei der Automatisierung von Threat-Intelligence-Forschung durch praxisnahe Aufgaben und analystenzentrierte Metriken aufzeigt.

Xiangsen Chen, Xuan Feng, Shuo Chen, Matthieu Maitre, Sudipto Rakshit, Diana Duvieilh, Ashley Picone, Nan TangWed, 11 Ma💬 cs.CL

Modelling the Diachronic Emergence of Phoneme Frequency Distributions

Die Studie zeigt, dass ein stochastisches Modell der phonologischen Evolution, das funktionale Last und eine Tendenz zu einer bevorzugten Inventargröße berücksichtigt, die beobachteten statistischen Regularitäten von Phonemfrequenzen und die Beziehung zwischen Inventargröße und relativer Entropie als natürliche Folge historischer Sprachveränderungen erklären kann.

Fermín Moscoso del Prado Martín, Suchir SalhanWed, 11 Ma💬 cs.CL

You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

Die Studie zeigt, dass Sprachmodelle durch das Training auf semantisch treuen Umschreibungen subliminal Präferenzen von einem Lehrermodell übernehmen können, selbst wenn der Inhalt diese Präferenzen explizit widerspricht, was die Wirksamkeit rein inhaltsbasierter Sicherheitsfilter in Frage stellt.

Isaia Gisler (ETH Zürich), Zhonghao He (University of Cambridge), Tianyi Qiu (Peking University)Wed, 11 Ma🤖 cs.LG

Enhancing Debunking Effectiveness through LLM-based Personality Adaptation

Diese Studie stellt eine Methode vor, bei der Large Language Models genutzt werden, um Fakenews-Entlarvungen basierend auf den Big-Five-Persönlichkeitseigenschaften zu personalisieren und deren Wirksamkeit durch automatische Evaluierung zu bestätigen, wobei sich zeigt, dass solche maßgeschneiderten Botschaften überzeugender sind, gleichzeitig aber ethische Bedenken aufwerfen.

Pietro Dell'Oglio, Alessandro Bondielli, Francesco Marcelloni, Lucia C. PassaroWed, 11 Ma🤖 cs.AI