cs.CL Arbeiten | Gist.Science

Language Model Goal Selection Differs from Humans' in an Open-Ended Task

Die Studie zeigt, dass große Sprachmodelle in offenen Aufgaben ihre Ziele deutlich anders wählen als Menschen, indem sie oft Lösungen ausnutzen oder geringe Leistung zeigen, was ihre Eignung als Ersatz für menschliche Zielsetzung in Anwendungen wie persönlicher Assistenz oder Politikforschung infrage stellt.

Gaia Molinaro, Dave August, Danielle Perszyk + 1 more2026-03-05🤖 cs.AI

PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents

Die Arbeit stellt PlugMem vor, ein auf kognitiver Wissenschaft basierendes, aufgabenunabhängiges Plugin für LLM-Agenten, das episodische Erinnerungen in einen kompakten, wissenszentrierten Graphen umwandelt, um die Effizienz und Genauigkeit des Langzeitgedächtnisses über verschiedene Aufgaben hinweg zu verbessern.

Ke Yang, Zixi Chen, Xuan He + 6 more2026-03-05🤖 cs.AI

TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement

Die Arbeit stellt TTSR vor, einen Testzeit-Trainingsrahmen, der durch einen sich selbst reflektierenden Wechsel zwischen Schüler- und Lehrer-Rollen in einem einzigen vortrainierten Modell gezielt Schwächen in der Schlussfolgerung identifiziert und durch synthetisierte Variantenfragen die reasoning-Fähigkeiten von Large Language Models kontinuierlich verbessert.

Haoyang He, Zihua Rong, Liangjie Zhao + 3 more2026-03-05🤖 cs.AI

TATRA: Training-Free Instance-Adaptive Prompting Through Rephrasing and Aggregation

Die Arbeit stellt TATRA vor, eine trainingsfreie Methode, die durch synthetisches Erstellen instanzspezifischer Few-Shot-Beispiele die Empfindlichkeit von Large Language Models gegenüber Prompt-Formulierungen überwindet und dabei ohne annotierte Daten oder aufwändige Optimierungsschleifen auskommt.

Bartosz Dziuba, Kacper Kuchta, Paweł Batorski + 2 more2026-03-05🤖 cs.AI

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

Diese Studie auditiert die Zitationshalluzinationen von zehn kommerziellen LLMs über verschiedene Domänen hinweg, quantifiziert deren erhebliche Variation, identifiziert promptinduzierte Ursachen sowie effektive Detektionsfilter und stellt einen leichten Klassifikator vor, der gefälschte Zitate ohne externe Datenbankabfrage zuverlässig erkennt.

MZ Naser2026-03-05💬 cs.CL

Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys

Diese Studie bewertet verschiedene KI-Tools für die juristische Recherche mittels des LaborBench-Benchmarks und zeigt, dass das maßgeschneiderte Tool STARA mit 83 % Genauigkeit deutlich besser abschneidet als kommerzielle Plattformen, wobei eine detaillierte Fehleranalyse zudem erhebliche Lücken in den ursprünglichen menschlichen Referenzdaten aufdeckt, die die tatsächliche Genauigkeit von STARA auf 92 % erhöhen.

Mohamed Afane, Emaan Hariri, Derek Ouyang + 1 more2026-03-05💬 cs.CL

From Exact Hits to Close Enough: Semantic Caching for LLM Embeddings

Diese Arbeit untersucht semantisches Caching für LLM-Einbettungen, beweist die NP-Schwere optimaler Offline-Richtlinien, stellt polynomielle Heuristiken und Online-Strategien vor, die in Experimenten die Genauigkeit verbessern, und stellt den gesamten Code als Open Source bereit.

Dvir David Biton, Roy Friedman2026-03-05🤖 cs.AI

Developing an AI Assistant for Knowledge Management and Workforce Training in State DOTs

Diese Arbeit schlägt ein Multi-Agenten-RAG-Framework vor, das große Sprachmodelle, spezialisierte Agenten zur Qualitätskontrolle und visuelle Modelle zur Textumwandlung von Diagrammen integriert, um das Wissensmanagement und die Personalentwicklung in staatlichen Straßenbauämtern durch kontextbewusste, evidenzbasierte Antworten zu verbessern.

Divija Amaram, Lu Gao, Gowtham Reddy Gudla + 1 more2026-03-05🤖 cs.AI

HumanLM: Simulating Users with State Alignment Beats Response Imitation

Die Arbeit stellt HumanLM vor, ein neuartiges Trainingsframework, das durch die Ausrichtung von latenten, psychologisch fundierten Zuständen mittels Reinforcement Learning realistische Nutzer-Simulationen erzeugt und damit bestehende Ansätze, die lediglich Oberflächenmuster imitieren, signifikant übertrifft.

Shirley Wu, Evelyn Choi, Arpandeep Khatua + 7 more2026-03-05🤖 cs.AI

Draft-Conditioned Constrained Decoding for Structured Generation in LLMs

Die Arbeit stellt Draft-Conditioned Constrained Decoding (DCCD) vor, ein trainingfreies Zwei-Schritt-Verfahren, das durch die Entkopplung von semantischer Planung und struktureller Erzwingung die Genauigkeit strukturierter Ausgaben bei großen Sprachmodellen signifikant verbessert und dabei auch kleinere Modelle effizienter macht.

Avinash Reddy, Thayne T. Walker, James S. Ide + 1 more2026-03-05🤖 cs.AI

Token-Oriented Object Notation vs JSON: A Benchmark of Plain and Constrained Decoding Generation

Die Studie stellt fest, dass das neue Format TOON zwar bei komplexen Aufgaben ein vielversprechendes Verhältnis von Genauigkeit zu Token-Verbrauch bietet, dessen Vorteil jedoch durch Prompt-Overhead bei kurzen Kontexten geschmälert wird, während herkömmliches JSON in der generierten Genauigkeit überlegen bleibt und eingeschränktes Decoding trotz geringstem Token-Verbrauch oft an Genauigkeit einbüßt.

Ivan Matveev2026-03-05🤖 cs.AI

TopicENA: Enabling Epistemic Network Analysis at Scale through Automated Topic-Based Coding

Die Studie stellt TopicENA vor, ein Framework, das BERTopic mit der Epistemischen Netzwerkanalyse (ENA) kombiniert, um durch automatisierte themenbasierte Kodierung die Skalierbarkeit und praktische Anwendbarkeit von ENA auf große Textkorpora zu ermöglichen.

Owen H. T. Lu, Tiffany T. Y. Hsu2026-03-05🤖 cs.AI

Old Habits Die Hard: How Conversational History Geometrically Traps LLMs

Die Arbeit „Old Habits Die Hard" stellt das Framework History-Echoes vor, das nachweist, wie sich konversationelle Vergangenheit probabilistisch und geometrisch auf Large Language Models auswirkt, indem sie deren Trajektorien im latenten Raum in einer Art geometrischer Falle festhält.

Adi Simhi, Fazl Barez, Martin Tutek + 2 more2026-03-05🤖 cs.AI

Combating data scarcity in recommendation services: Integrating cognitive types of VARK and neural network technologies (LLM)

Diese Forschung stellt ein hybrides Framework vor, das Large Language Models (LLMs) zur semantischen Inhaltsanalyse mit VARK-basierten kognitiven Profilen kombiniert, um die Kaltstartproblematik in Empfehlungssystemen zu überwinden und personalisierte, erklärbare Empfehlungen bereits bei minimalen Nutzerdaten zu generieren.

Nikita Zmanovskii2026-03-05💬 cs.CL

Entropic-Time Inference: Self-Organizing Large Language Model Decoding Beyond Attention

Die Arbeit stellt ein neues Paradigma namens „entropic-time inference" vor, das die LLM-Inferenz durch eine selbstorganisierende Architektur steuert, welche Scheduling, Aufmerksamkeitsverdünnung und Temperatursteuerung über ein einheitliches Entropie-Ziel vereint, um die Berechnung dort zu priorisieren, wo die Unsicherheitsreduktion maximal ist.

Andrew Kiruluta2026-03-05🤖 cs.LG

The Logovista English-Japanese Machine Translation System

Dieser Artikel dokumentiert die Architektur, Entwicklung und bewahrten Artefakte des kommerziell eingesetzten, regelbasierten Logovista-Übersetzungssystems für Englisch-Japanisch, das von den frühen 1990er Jahren bis mindestens 2012 durch handgeschriebene Regeln, ein zentrales Wörterbuch und chart-basiertes Parsing kontinuierlich an praktische Anforderungen angepasst wurde.

Barton D. Wright2026-03-05💬 cs.CL

Escaping the BLEU Trap: A Signal-Grounded Framework with Decoupled Semantic Guidance for EEG-to-Text Decoding

Die Arbeit stellt SemKey vor, ein neuartiges Framework zur EEG-zu-Text-Decodierung, das durch die Entkopplung semantischer Ziele und eine signalgefundene Architektur die häufigen Probleme von Halluzinationen und der irreführenden BLEU-Metrik überwindet, um eine präzisere und diversere Sprachgenerierung aus neuronalen Signalen zu erreichen.

Yuchen Wang, Haonan Wang, Yu Guo + 2 more2026-03-05🤖 cs.AI

How does fine-tuning improve sensorimotor representations in large language models?

Die Studie zeigt, dass eine aufgabenspezifische Feinabstimmung die sensorischen und motorischen Repräsentationen in großen Sprachmodellen verbessern und die Lücke zu menschlichen Erfahrungen schließen kann, wobei diese Verbesserungen zwar sprachübergreifend generalisieren, aber stark vom Lernziel abhängen und nicht auf völlig unterschiedliche Aufgabenformate übertragbar sind.

Minghua Wu, Javier Conde, Pedro Reviriego + 1 more2026-03-05🤖 cs.AI

Towards Self-Robust LLMs: Intrinsic Prompt Noise Resistance via CoIPO

Die Autoren stellen CoIPO, eine kontrastive Lernmethode zur Inverse Direct Preference Optimization, vor, die die inhärente Robustheit von Large Language Models gegenüber Prompt-Rauschen erhöht und dabei externe Vorverarbeitung vermeidet.

Xin Yang, Letian Li, Abudukelimu Wuerkaixi + 5 more2026-03-05🤖 cs.AI

M-QUEST -- Meme Question-Understanding Evaluation on Semantics and Toxicity

Die Arbeit stellt M-QUEST vor, ein semantisches Framework und Benchmark mit 609 Frage-Antwort-Paaren, das die automatische Extraktion von Wissen aus Memes zur Bewertung von Toxizität und Semantik ermöglicht und die Leistung von Large Language Models in diesem multimodalen Kontext evaluiert.

Stefano De Giorgis, Ting-Chih Chen, Filip Ilievski2026-03-05🤖 cs.AI

← Zurück Weiter →