cs.CL Arbeiten | Gist.Science

Extracting Training Dialogue Data from Large Language Model based Task Bots

Diese Arbeit untersucht die Privatsphärenrisiken von LLM-basierten Task-Bots, indem sie zeigt, dass diese Trainingsdaten memorieren können, und entwickelt neue Angriffstechniken, um tausende Dialogzustände mit hoher Präzision zu extrahieren, woraus sich gezielte Minderungsstrategien ableiten lassen.

Shuo Zhang, Junzhou Zhao, Junji Hou + 3 more2026-03-05🤖 cs.AI

From Variance to Invariance: Qualitative Content Analysis for Narrative Graph Annotation

Diese Arbeit stellt ein qualitatives Inhaltsanalyse-Framework zur Annotation von Inflationsnarrativen als gerichtete azyklische Graphen vor und zeigt durch eine experimentelle Auswertung, dass lokal eingeschränkte Repräsentationen die Annotationsschwankungen verringern, während überlappungsbasierte Metriken die Zuverlässigkeit überschätzen.

Junbo Huang, Max Weinig, Ulrich Fritsche + 1 more2026-03-05🤖 cs.AI

Detecting AI-Generated Essays in Writing Assessment: Responsible Use and Generalizability Across LLMs

Dieses Kapitel bietet einen Überblick über Detektoren für KI-generierte Aufsätze und ihre verantwortungsvolle Nutzung, während es zudem empirisch untersucht, inwiefern Modelle, die auf Texten eines bestimmten Large Language Models trainiert wurden, auf Aufsätze anderer Modelle verallgemeinerbar sind, um praktische Leitlinien für deren Weiterentwicklung zu liefern.

Jiangang Hao2026-03-05💬 cs.CL

LaTeX Compilation: Challenges in the Era of LLMs

Diese Arbeit analysiert die Grenzen von TeX im Zeitalter von LLMs und stellt Mogan STEM als effizientere, strukturierte WYSIWYG-Alternative vor, die nicht nur bei der Kompilierung und Fehlerlokalisierung überlegen ist, sondern aufgrund seiner geringeren Informationsentropie auch das Fine-Tuning von Sprachmodellen in .tmu-Format begünstigt.

Tianyou Liu, Ziqiang Li, Xurui Liu + 1 more2026-03-05💬 cs.CL

Learning to Generate and Extract: A Multi-Agent Collaboration Framework For Zero-shot Document-level Event Arguments Extraction

Diese Arbeit stellt ein Multi-Agenten-Framework vor, das durch die Nachahmung des menschlichen „Vorschlagen-Bewerten-Überarbeiten"-Zyklus und den Einsatz von Reinforcement Learning die Qualität synthetischer Daten sowie die Leistung bei der zero-shot Extraktion von Ereignisargumenten auf Dokumentenebene verbessert.

Guangjun Zhang, Hu Zhang, Yazhou Han + 4 more2026-03-05🤖 cs.AI

Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

Die Arbeit stellt ein Multi-Agenten-Framework namens Code2Math vor, das mithilfe von Code-Agents bestehende mathematische Probleme autonom in strukturell unterschiedliche und schwierigere Varianten weiterentwickelt, um so das Problem des Mangels an hochwertigen Trainingsdaten für fortgeschrittene mathematische Fähigkeiten von KI-Modellen zu lösen.

Dadi Guo, Yuejin Xie, Qingyu Liu + 7 more2026-03-05💬 cs.CL

AriadneMem: Threading the Maze of Lifelong Memory for LLM Agents

AriadneMem ist ein strukturiertes Speichersystem für LLM-Agenten, das durch eine zweiphasige Pipeline mit Entropie-basiertem Filtern, konfliktbewusster Vergröberung und algorithmischer Brückenfindung die Genauigkeit bei mehrstufigen Schlussfolgerungen signifikant steigert und gleichzeitig die Laufzeit drastisch reduziert.

Wenhui Zhu, Xiwen Chen, Zhipeng Wang + 11 more2026-03-05🤖 cs.AI

One Bias After Another: Mechanistic Reward Shaping and Persistent Biases in Language Reward Models

Die Studie zeigt, dass Belohnungsmodelle für Sprachmodelle trotz bestehender Lösungen weiterhin anfällig für diverse Verzerrungen sind, und stellt eine mechanische Belohnungsformung vor, die diese systematisch reduziert, ohne die allgemeine Qualität zu beeinträchtigen.

Daniel Fein, Max Lamparth, Violet Xiang + 2 more2026-03-05🤖 cs.AI

From Conflict to Consensus: Boosting Medical Reasoning via Multi-Round Agentic RAG

Die Arbeit stellt MA-RAG vor, ein Multi-Round-Agentic-RAG-Framework, das durch die iterative Umwandlung von semantischen Konflikten in gezielte Suchanfragen und die Optimierung von Reasoning-Verläufen die medizinische Schlussfolgerung verbessert und auf sieben Benchmarks eine durchschnittliche Genauigkeitssteigerung von 6,8 Prozentpunkten gegenüber dem Basismodell erzielt.

Wenhao Wu, Zhentao Tang, Yafu Li + 5 more2026-03-05🤖 cs.AI

SE-Search: Self-Evolving Search Agent via Memory and Dense Reward

Die Arbeit stellt SE-Search vor, einen selbstentwickelnden Suchagenten, der durch eine „Denken-Suchen-Erinnern"-Strategie mit Gedächtnisbereinigung, atomaren Abfragetrainings und dichten Belohnungen die Leistung von Suchagenten für die Wissensgenerierung signifikant verbessert.

Jian Li, Yizhang Jin, Dongqi Liu + 9 more2026-03-05💬 cs.CL

Fine-Tuning and Evaluating Conversational AI for Agricultural Advisory

Die Studie stellt einen hybriden Ansatz vor, der durch Feinabstimmung auf kuratierte landwirtschaftliche Fakten und eine separate Antwort-Schicht die Genauigkeit und Sicherheit von KI-Beratungssystemen für Kleinbauern in Indien verbessert und dabei kosteneffizientere Modelle einsetzt.

Sanyam Singh, Naga Ganesh, Vineet Singh + 8 more2026-03-05🤖 cs.AI

Language Model Goal Selection Differs from Humans' in an Open-Ended Task

Die Studie zeigt, dass große Sprachmodelle in offenen Aufgaben ihre Ziele deutlich anders wählen als Menschen, indem sie oft Lösungen ausnutzen oder geringe Leistung zeigen, was ihre Eignung als Ersatz für menschliche Zielsetzung in Anwendungen wie persönlicher Assistenz oder Politikforschung infrage stellt.

Gaia Molinaro, Dave August, Danielle Perszyk + 1 more2026-03-05🤖 cs.AI

PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents

Die Arbeit stellt PlugMem vor, ein auf kognitiver Wissenschaft basierendes, aufgabenunabhängiges Plugin für LLM-Agenten, das episodische Erinnerungen in einen kompakten, wissenszentrierten Graphen umwandelt, um die Effizienz und Genauigkeit des Langzeitgedächtnisses über verschiedene Aufgaben hinweg zu verbessern.

Ke Yang, Zixi Chen, Xuan He + 6 more2026-03-05🤖 cs.AI

TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement

Die Arbeit stellt TTSR vor, einen Testzeit-Trainingsrahmen, der durch einen sich selbst reflektierenden Wechsel zwischen Schüler- und Lehrer-Rollen in einem einzigen vortrainierten Modell gezielt Schwächen in der Schlussfolgerung identifiziert und durch synthetisierte Variantenfragen die reasoning-Fähigkeiten von Large Language Models kontinuierlich verbessert.

Haoyang He, Zihua Rong, Liangjie Zhao + 3 more2026-03-05🤖 cs.AI

TATRA: Training-Free Instance-Adaptive Prompting Through Rephrasing and Aggregation

Die Arbeit stellt TATRA vor, eine trainingsfreie Methode, die durch synthetisches Erstellen instanzspezifischer Few-Shot-Beispiele die Empfindlichkeit von Large Language Models gegenüber Prompt-Formulierungen überwindet und dabei ohne annotierte Daten oder aufwändige Optimierungsschleifen auskommt.

Bartosz Dziuba, Kacper Kuchta, Paweł Batorski + 2 more2026-03-05🤖 cs.AI

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

Diese Studie auditiert die Zitationshalluzinationen von zehn kommerziellen LLMs über verschiedene Domänen hinweg, quantifiziert deren erhebliche Variation, identifiziert promptinduzierte Ursachen sowie effektive Detektionsfilter und stellt einen leichten Klassifikator vor, der gefälschte Zitate ohne externe Datenbankabfrage zuverlässig erkennt.

MZ Naser2026-03-05💬 cs.CL

Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys

Diese Studie bewertet verschiedene KI-Tools für die juristische Recherche mittels des LaborBench-Benchmarks und zeigt, dass das maßgeschneiderte Tool STARA mit 83 % Genauigkeit deutlich besser abschneidet als kommerzielle Plattformen, wobei eine detaillierte Fehleranalyse zudem erhebliche Lücken in den ursprünglichen menschlichen Referenzdaten aufdeckt, die die tatsächliche Genauigkeit von STARA auf 92 % erhöhen.

Mohamed Afane, Emaan Hariri, Derek Ouyang + 1 more2026-03-05💬 cs.CL

From Exact Hits to Close Enough: Semantic Caching for LLM Embeddings

Diese Arbeit untersucht semantisches Caching für LLM-Einbettungen, beweist die NP-Schwere optimaler Offline-Richtlinien, stellt polynomielle Heuristiken und Online-Strategien vor, die in Experimenten die Genauigkeit verbessern, und stellt den gesamten Code als Open Source bereit.

Dvir David Biton, Roy Friedman2026-03-05🤖 cs.AI

Developing an AI Assistant for Knowledge Management and Workforce Training in State DOTs

Diese Arbeit schlägt ein Multi-Agenten-RAG-Framework vor, das große Sprachmodelle, spezialisierte Agenten zur Qualitätskontrolle und visuelle Modelle zur Textumwandlung von Diagrammen integriert, um das Wissensmanagement und die Personalentwicklung in staatlichen Straßenbauämtern durch kontextbewusste, evidenzbasierte Antworten zu verbessern.

Divija Amaram, Lu Gao, Gowtham Reddy Gudla + 1 more2026-03-05🤖 cs.AI

HumanLM: Simulating Users with State Alignment Beats Response Imitation

Die Arbeit stellt HumanLM vor, ein neuartiges Trainingsframework, das durch die Ausrichtung von latenten, psychologisch fundierten Zuständen mittels Reinforcement Learning realistische Nutzer-Simulationen erzeugt und damit bestehende Ansätze, die lediglich Oberflächenmuster imitieren, signifikant übertrifft.

Shirley Wu, Evelyn Choi, Arpandeep Khatua + 7 more2026-03-05🤖 cs.AI

← Zurück Weiter →