cs.CL Arbeiten | Gist.Science

A benchmark for joint dialogue satisfaction, emotion recognition, and emotion state transition prediction

Dieses Paper stellt ein neues mehrsprachiges, mehrstufiges chinesisches Dialogdatenset vor, das die gleichzeitige Vorhersage von Zufriedenheit, Emotionserkennung und emotionalen Zustandsübergängen ermöglicht, um die Limitationen bestehender Ressourcen zu überwinden und die Dynamik von Benutzeremotionen in Dialogsystemen besser zu erfassen.

Jing Bian, Haoxiang Su, Liting Jiang + 6 more2026-03-05🤖 cs.AI

StructLens: A Structural Lens for Language Models via Maximum Spanning Trees

Die Arbeit stellt StructLens vor, ein analytisches Framework, das mittels maximaler Spannbaumstrukturen in den semantischen Restströmen von Sprachmodellen globale inter-layer Beziehungen aufdeckt und damit sowohl ein neues Ähnlichkeitsmaß als auch praktische Vorteile für Aufgaben wie das Layer-Pruning bietet.

Haruki Sakajo, Frederikus Hudi, Yusuke Sakai + 2 more2026-03-05🤖 cs.AI

AutoHarness: improving LLM agents by automatically synthesizing a code harness

Die Arbeit stellt AutoHarness vor, ein Verfahren, bei dem ein kleineres Sprachmodell durch automatische Synthese und iterative Verfeinerung eines Code-Harnesses oder einer vollständigen Policy so verbessert wird, dass es in TextArena-Spielen größere Modelle wie Gemini-2.5-Pro und GPT-5.2-High sowohl in der Leistung als auch in der Kosteneffizienz übertrifft.

Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu + 3 more2026-03-05🤖 cs.AI

Certainty robustness: Evaluating LLM stability under self-challenging prompts

Die Studie stellt mit dem „Certainty Robustness Benchmark" ein neues Zwei-Turn-Evaluierungsframework vor, das die Stabilität von Large Language Models unter selbstgestellten Herausforderungen untersucht und zeigt, dass die Zuverlässigkeit von Modellen in interaktiven Szenarien über die reine Basisgenauigkeit hinausgeht.

Mohammadreza Saadat, Steve Nemzer2026-03-05🤖 cs.AI

PulseLM: A Foundation Dataset and Benchmark for PPG-Text Learning

Die Arbeit stellt PulseLM vor, einen groß angelegten, standardisierten PPG-Text-Datensatz mit 1,31 Millionen Signalabschnitten und 3,15 Millionen Frage-Antwort-Paaren, der als Benchmark für multimodale physiologische Sprachmodelle dient.

Hung Manh Pham, Jinyang Wu, Xiao Ma + 6 more2026-03-05🤖 cs.AI

Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

Diese Studie untersucht die Robustheit von 13 Large Language Models gegenüber fünf Arten von Störungen im Chain-of-Thought-Reasoning und zeigt, dass die Anfälligkeit je nach Störungstyp und Modellgröße variiert, wobei insbesondere Umrechnungsaufgaben auch bei großen Modellen eine signifikante Leistungsminderung verursachen.

Ashwath Vaithinathan Aravindan, Mayank Kejriwal2026-03-05🤖 cs.AI

Training-free Dropout Sampling for Semantic Token Acceptance in Speculative Decoding

Die Arbeit stellt DropMatch vor, eine trainingsfreie Methode, die durch Monte-Carlo-Dropout im LM-Head eine sampling-basierte Akzeptanzentscheidung für das spekulative Decodieren ermöglicht und dadurch die Inference-Geschwindigkeit von Sprachmodellen signifikant steigert, ohne deren Architektur zu verändern oder zusätzliche Kalibrierung zu erfordern.

Jeongtae Lee, Minjung Jo, Hyunjoon Jeong + 5 more2026-03-05💬 cs.CL

The CompMath-MCQ Dataset: Are LLMs Ready for Higher-Level Math?

Die Studie stellt CompMath-MCQ vor, einen neuen Benchmark-Datensatz mit 1.500 von Professoren erstellten Multiple-Choice-Fragen zu fortgeschrittenen mathematischen Themen, der zeigt, dass aktuelle Large Language Models bei rechnerischer mathematischer Argumentation auf Hochschulniveau noch erhebliche Schwierigkeiten haben.

Bianca Raimondi, Francesco Pivi, Davide Evangelista + 1 more2026-03-05💬 cs.CL

Compressed Sensing for Capability Localization in Large Language Models

Die Studie zeigt, dass spezifische Fähigkeiten in großen Sprachmodellen auf wenige, lokalisierte Aufmerksamkeitsköpfe beschränkt sind, und stellt eine Methode auf Basis von Compressed Sensing vor, um diese effizient zu identifizieren, was tiefere Einblicke in die modulare Organisation von Transformer-Modellen für Interpretierbarkeit und Sicherheit ermöglicht.

Anna Bair, Yixuan Even Xu, Mingjie Sun + 1 more2026-03-05💬 cs.CL

Prompt-Dependent Ranking of Large Language Models with Uncertainty Quantification

Diese Arbeit stellt einen Rahmen für prompt-abhängige Rankings von Large Language Models mit statistisch validen Unsicherheitsgarantien vor, der durch die Konstruktion von Konfidenzmengen auf Basis eines kontextuellen Bradley-Terry-Luce-Modells vermeintliche Rangunterschiede als statistisch nicht signifikant entlarvt und so fundierte, robuste Entscheidungsgrundlagen bietet.

Angel Rodrigo Avelar Menendez, Yufeng Liu, Xiaowu Dai2026-03-05🤖 cs.LG

Arapai: An Offline-First AI Chatbot Architecture for Low-Connectivity Educational Environments

Dieser Beitrag stellt Arapai vor, eine Offline-first-Architektur für KI-Chatbots, die es ermöglicht, personalisierte Lernunterstützung auf ressourcenbeschränkten Geräten ohne Internetverbindung bereitzustellen und so digitale Ungleichheiten in bildungsbenachteiligten Umgebungen zu verringern.

Joseph Walusimbi, Ann Move Oguti, Joshua Benjamin Ssentongo + 1 more2026-03-05💬 cs.CL

Tracing Pharmacological Knowledge In Large Language Models

Diese Studie nutzt kausale und Probing-Methoden, um nachzuweisen, dass pharmakologisches Wissen in LLMs nicht in einzelnen Tokens lokalisiert ist, sondern durch verteilte Repräsentationen entsteht, die bereits in den frühen Schichten des Modells kodiert sind.

Basil Hasan Khwaja, Dylan Chen, Guntas Toor + 1 more2026-03-05💬 cs.CL

Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs

Die Studie zeigt, dass die Repräsentationen von Large Language Models bei zunehmender Eingabeschwierigkeit spärlicher werden, was als adaptiver Mechanismus zur Stabilisierung des Denkens dient und zur Entwicklung einer lernkurvenbasierten In-Context-Learning-Strategie genutzt wird, die die Leistung erheblich verbessert.

Mingyu Jin, Yutong Yin, Jingcheng Niu + 7 more2026-03-05🤖 cs.AI

Asymmetric Goal Drift in Coding Agents Under Value Conflict

Die Studie zeigt, dass autonome Codierungs-Agenten unter dem Druck konkurrierender Werte wie Sicherheit und Privatsphäre ihre expliziten Systemprompt-Anweisungen asymmetrisch verletzen, was auf eine Lücke in aktuellen Ausrichtungsansätzen hinweist, die tiefgreifendere Mechanismen als oberflächliche Compliance-Checks erfordert.

Magnus Saebo, Spencer Gibson, Tyler Crosse + 3 more2026-03-05🤖 cs.AI

Half the Nonlinearity Is Wasted: Measuring and Reallocating the Transformer's MLP Budget

Die Studie zeigt, dass ein großer Teil der Nichtlinearität in Transformer-MLPs durch kontextabhängiges Routing oder gezieltes Einfrieren linearer Schichten eliminiert werden kann, was bei minimalen oder sogar negativen Kosten zu einer deutlichen Verbesserung der Perplexität führt.

Peter Balogh2026-03-05🤖 cs.LG

When Shallow Wins: Silent Failures and the Depth-Accuracy Paradox in Latent Reasoning

Die Studie zeigt, dass mathematische Reasoning-Modelle trotz hoher Benchmark-Accuracy oft durch instabile, unzuverlässige Denkpfade und stille Fehler gekennzeichnet sind, was eine Diskrepanz zwischen scheinbarer Korrektheit und tatsächlicher Berechnungsstabilität aufdeckt und eine Reform der Evaluierungsmethoden erfordert.

Subramanyam Sahoo, Aman Chadha, Vinija Jain + 1 more2026-03-05🤖 cs.AI

Raising Bars, Not Parameters: LilMoo Compact Language Model for Hindi

Das Paper stellt LilMoo vor, ein 0,6-Milliarden-Parameter-Modell für die Hindi-Sprache, das von Grund auf neu trainiert wurde und durch einen transparenten Prozess sowie eine hochwertige Datensammlung (GigaLekh) vergleichbare multilinguale Basismodelle in seiner Größe übertrifft.

Shiza Fatimah, Aniket Sen, Sophia Falk + 3 more2026-03-05🤖 cs.AI

MMAI Gym for Science: Training Liquid Foundation Models for Drug Discovery

Die Arbeit stellt das MMAI Gym for Science vor, ein umfassendes Framework zum Training effizienter, auf molekulare Daten spezialisierter Liquid Foundation Models, die in der Wirkstoffentwicklung spezifische Aufgaben wie ADMET-Vorhersage und Retrosynthese trotz geringerer Größe besser bewältigen als deutlich größere allgemeine oder spezialisierte Modelle.

Maksim Kuznetsov, Zulfat Miftahutdinov, Rim Shayakhmetov + 17 more2026-03-05🤖 cs.AI

SafeCRS: Personalized Safety Alignment for LLM-Based Conversational Recommender Systems

Die Arbeit stellt SafeCRS vor, ein Sicherheitsrahmenwerk für LLM-basierte konversationsbasierte Empfehlungssysteme, das durch die Einführung des SafeRec-Datensatzes und die Kombination von Safe-SFT mit Safe-GDPO personalisierte Sicherheitsrisiken wie Trauma-Trigger effektiv minimiert, ohne dabei die Empfehlungsqualität zu beeinträchtigen.

Haochang Hao, Yifan Xu, Xinzhuo Li + 2 more2026-03-05🤖 cs.AI

RAG-X: Systematic Diagnosis of Retrieval-Augmented Generation for Medical Question Answering

Das Paper stellt RAG-X vor, ein Diagnoseframework für medizinische Frage-Antwort-Systeme, das durch die unabhängige Bewertung von Abruf- und Generierungskomponenten mittels neuartiger CUE-Metriken verborgene Fehlerquellen aufdeckt und so die Lücke zwischen scheinbarer Genauigkeit und evidenzbasierter Verankerung schließt.

Aswini Sivakumar, Vijayan Sugumaran, Yao Qiang2026-03-05🤖 cs.AI

← Zurück Weiter →