cs.CL Arbeiten | Gist.Science

Learning to Generate and Extract: A Multi-Agent Collaboration Framework For Zero-shot Document-level Event Arguments Extraction

Diese Arbeit stellt ein Multi-Agenten-Framework vor, das durch die Nachahmung des menschlichen „Vorschlagen-Bewerten-Überarbeiten"-Zyklus und den Einsatz von Reinforcement Learning die Qualität synthetischer Daten sowie die Leistung bei der zero-shot Extraktion von Ereignisargumenten auf Dokumentenebene verbessert.

Guangjun Zhang, Hu Zhang, Yazhou Han + 4 more2026-03-05🤖 cs.AI

Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

Die Arbeit stellt ein Multi-Agenten-Framework namens Code2Math vor, das mithilfe von Code-Agents bestehende mathematische Probleme autonom in strukturell unterschiedliche und schwierigere Varianten weiterentwickelt, um so das Problem des Mangels an hochwertigen Trainingsdaten für fortgeschrittene mathematische Fähigkeiten von KI-Modellen zu lösen.

Dadi Guo, Yuejin Xie, Qingyu Liu + 7 more2026-03-05💬 cs.CL

AriadneMem: Threading the Maze of Lifelong Memory for LLM Agents

AriadneMem ist ein strukturiertes Speichersystem für LLM-Agenten, das durch eine zweiphasige Pipeline mit Entropie-basiertem Filtern, konfliktbewusster Vergröberung und algorithmischer Brückenfindung die Genauigkeit bei mehrstufigen Schlussfolgerungen signifikant steigert und gleichzeitig die Laufzeit drastisch reduziert.

Wenhui Zhu, Xiwen Chen, Zhipeng Wang + 11 more2026-03-05🤖 cs.AI

One Bias After Another: Mechanistic Reward Shaping and Persistent Biases in Language Reward Models

Die Studie zeigt, dass Belohnungsmodelle für Sprachmodelle trotz bestehender Lösungen weiterhin anfällig für diverse Verzerrungen sind, und stellt eine mechanische Belohnungsformung vor, die diese systematisch reduziert, ohne die allgemeine Qualität zu beeinträchtigen.

Daniel Fein, Max Lamparth, Violet Xiang + 2 more2026-03-05🤖 cs.AI

From Conflict to Consensus: Boosting Medical Reasoning via Multi-Round Agentic RAG

Die Arbeit stellt MA-RAG vor, ein Multi-Round-Agentic-RAG-Framework, das durch die iterative Umwandlung von semantischen Konflikten in gezielte Suchanfragen und die Optimierung von Reasoning-Verläufen die medizinische Schlussfolgerung verbessert und auf sieben Benchmarks eine durchschnittliche Genauigkeitssteigerung von 6,8 Prozentpunkten gegenüber dem Basismodell erzielt.

Wenhao Wu, Zhentao Tang, Yafu Li + 5 more2026-03-05🤖 cs.AI

SE-Search: Self-Evolving Search Agent via Memory and Dense Reward

Die Arbeit stellt SE-Search vor, einen selbstentwickelnden Suchagenten, der durch eine „Denken-Suchen-Erinnern"-Strategie mit Gedächtnisbereinigung, atomaren Abfragetrainings und dichten Belohnungen die Leistung von Suchagenten für die Wissensgenerierung signifikant verbessert.

Jian Li, Yizhang Jin, Dongqi Liu + 9 more2026-03-05💬 cs.CL

Fine-Tuning and Evaluating Conversational AI for Agricultural Advisory

Die Studie stellt einen hybriden Ansatz vor, der durch Feinabstimmung auf kuratierte landwirtschaftliche Fakten und eine separate Antwort-Schicht die Genauigkeit und Sicherheit von KI-Beratungssystemen für Kleinbauern in Indien verbessert und dabei kosteneffizientere Modelle einsetzt.

Sanyam Singh, Naga Ganesh, Vineet Singh + 8 more2026-03-05🤖 cs.AI

Language Model Goal Selection Differs from Humans' in an Open-Ended Task

Die Studie zeigt, dass große Sprachmodelle in offenen Aufgaben ihre Ziele deutlich anders wählen als Menschen, indem sie oft Lösungen ausnutzen oder geringe Leistung zeigen, was ihre Eignung als Ersatz für menschliche Zielsetzung in Anwendungen wie persönlicher Assistenz oder Politikforschung infrage stellt.

Gaia Molinaro, Dave August, Danielle Perszyk + 1 more2026-03-05🤖 cs.AI

PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents

Die Arbeit stellt PlugMem vor, ein auf kognitiver Wissenschaft basierendes, aufgabenunabhängiges Plugin für LLM-Agenten, das episodische Erinnerungen in einen kompakten, wissenszentrierten Graphen umwandelt, um die Effizienz und Genauigkeit des Langzeitgedächtnisses über verschiedene Aufgaben hinweg zu verbessern.

Ke Yang, Zixi Chen, Xuan He + 6 more2026-03-05🤖 cs.AI

TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement

Die Arbeit stellt TTSR vor, einen Testzeit-Trainingsrahmen, der durch einen sich selbst reflektierenden Wechsel zwischen Schüler- und Lehrer-Rollen in einem einzigen vortrainierten Modell gezielt Schwächen in der Schlussfolgerung identifiziert und durch synthetisierte Variantenfragen die reasoning-Fähigkeiten von Large Language Models kontinuierlich verbessert.

Haoyang He, Zihua Rong, Liangjie Zhao + 3 more2026-03-05🤖 cs.AI

TATRA: Training-Free Instance-Adaptive Prompting Through Rephrasing and Aggregation

Die Arbeit stellt TATRA vor, eine trainingsfreie Methode, die durch synthetisches Erstellen instanzspezifischer Few-Shot-Beispiele die Empfindlichkeit von Large Language Models gegenüber Prompt-Formulierungen überwindet und dabei ohne annotierte Daten oder aufwändige Optimierungsschleifen auskommt.

Bartosz Dziuba, Kacper Kuchta, Paweł Batorski + 2 more2026-03-05🤖 cs.AI

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

Diese Studie auditiert die Zitationshalluzinationen von zehn kommerziellen LLMs über verschiedene Domänen hinweg, quantifiziert deren erhebliche Variation, identifiziert promptinduzierte Ursachen sowie effektive Detektionsfilter und stellt einen leichten Klassifikator vor, der gefälschte Zitate ohne externe Datenbankabfrage zuverlässig erkennt.

MZ Naser2026-03-05💬 cs.CL

Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys

Diese Studie bewertet verschiedene KI-Tools für die juristische Recherche mittels des LaborBench-Benchmarks und zeigt, dass das maßgeschneiderte Tool STARA mit 83 % Genauigkeit deutlich besser abschneidet als kommerzielle Plattformen, wobei eine detaillierte Fehleranalyse zudem erhebliche Lücken in den ursprünglichen menschlichen Referenzdaten aufdeckt, die die tatsächliche Genauigkeit von STARA auf 92 % erhöhen.

Mohamed Afane, Emaan Hariri, Derek Ouyang + 1 more2026-03-05💬 cs.CL

From Exact Hits to Close Enough: Semantic Caching for LLM Embeddings

Diese Arbeit untersucht semantisches Caching für LLM-Einbettungen, beweist die NP-Schwere optimaler Offline-Richtlinien, stellt polynomielle Heuristiken und Online-Strategien vor, die in Experimenten die Genauigkeit verbessern, und stellt den gesamten Code als Open Source bereit.

Dvir David Biton, Roy Friedman2026-03-05🤖 cs.AI

Developing an AI Assistant for Knowledge Management and Workforce Training in State DOTs

Diese Arbeit schlägt ein Multi-Agenten-RAG-Framework vor, das große Sprachmodelle, spezialisierte Agenten zur Qualitätskontrolle und visuelle Modelle zur Textumwandlung von Diagrammen integriert, um das Wissensmanagement und die Personalentwicklung in staatlichen Straßenbauämtern durch kontextbewusste, evidenzbasierte Antworten zu verbessern.

Divija Amaram, Lu Gao, Gowtham Reddy Gudla + 1 more2026-03-05🤖 cs.AI

HumanLM: Simulating Users with State Alignment Beats Response Imitation

Die Arbeit stellt HumanLM vor, ein neuartiges Trainingsframework, das durch die Ausrichtung von latenten, psychologisch fundierten Zuständen mittels Reinforcement Learning realistische Nutzer-Simulationen erzeugt und damit bestehende Ansätze, die lediglich Oberflächenmuster imitieren, signifikant übertrifft.

Shirley Wu, Evelyn Choi, Arpandeep Khatua + 7 more2026-03-05🤖 cs.AI

Draft-Conditioned Constrained Decoding for Structured Generation in LLMs

Die Arbeit stellt Draft-Conditioned Constrained Decoding (DCCD) vor, ein trainingfreies Zwei-Schritt-Verfahren, das durch die Entkopplung von semantischer Planung und struktureller Erzwingung die Genauigkeit strukturierter Ausgaben bei großen Sprachmodellen signifikant verbessert und dabei auch kleinere Modelle effizienter macht.

Avinash Reddy, Thayne T. Walker, James S. Ide + 1 more2026-03-05🤖 cs.AI

Token-Oriented Object Notation vs JSON: A Benchmark of Plain and Constrained Decoding Generation

Die Studie stellt fest, dass das neue Format TOON zwar bei komplexen Aufgaben ein vielversprechendes Verhältnis von Genauigkeit zu Token-Verbrauch bietet, dessen Vorteil jedoch durch Prompt-Overhead bei kurzen Kontexten geschmälert wird, während herkömmliches JSON in der generierten Genauigkeit überlegen bleibt und eingeschränktes Decoding trotz geringstem Token-Verbrauch oft an Genauigkeit einbüßt.

Ivan Matveev2026-03-05🤖 cs.AI

TopicENA: Enabling Epistemic Network Analysis at Scale through Automated Topic-Based Coding

Die Studie stellt TopicENA vor, ein Framework, das BERTopic mit der Epistemischen Netzwerkanalyse (ENA) kombiniert, um durch automatisierte themenbasierte Kodierung die Skalierbarkeit und praktische Anwendbarkeit von ENA auf große Textkorpora zu ermöglichen.

Owen H. T. Lu, Tiffany T. Y. Hsu2026-03-05🤖 cs.AI

Old Habits Die Hard: How Conversational History Geometrically Traps LLMs

Die Arbeit „Old Habits Die Hard" stellt das Framework History-Echoes vor, das nachweist, wie sich konversationelle Vergangenheit probabilistisch und geometrisch auf Large Language Models auswirkt, indem sie deren Trajektorien im latenten Raum in einer Art geometrischer Falle festhält.

Adi Simhi, Fazl Barez, Martin Tutek + 2 more2026-03-05🤖 cs.AI

← Zurück Weiter →