cs.CL Arbeiten | Gist.Science

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

Das Paper stellt MITRA vor, ein auf On-Premise-RAG basierendes KI-System für physikalische Kollaborationen wie CMS, das durch eine automatisierte Dokumentenextraktion und eine zweistufige Vektordatenbank-Architektur präzise kontextbezogene Antworten auf Forschungsfragen liefert, während sensible Daten vollständig privat bleiben.

Abhishikth Mallampalli, Sridhara Dasu2026-03-11🤖 cs.AI

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Das Paper stellt One-Eval vor, ein agentisches System, das natürliche Sprachanfragen in ausführbare, nachvollziehbare und anpassbare Evaluierungsworkflows für Large Language Models umwandelt, um manuelle Aufwände zu reduzieren und die Reproduzierbarkeit in industriellen Anwendungen zu verbessern.

Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang2026-03-11💬 cs.CL

Chow-Liu Ordering for Long-Context Reasoning in Chain-of-Agents

Diese Arbeit stellt eine Methode vor, die Chow-Liu-Bäume nutzt, um die Verarbeitungsreihenfolge von Textchunks in Chain-of-Agents-Frameworks zu optimieren, wodurch Informationsverluste reduziert und die Genauigkeit bei langen Kontexten im Vergleich zu herkömmlichen Ansätzen signifikant verbessert wird.

Naman Gupta, Vaibhav Singh, Arun Iyer, Kirankumar Shiragur, Pratham Grover, Ramakrishna B. Bairi, Ritabrata Maiti, Sankarshan Damle, Shachee Mishra Gupta, Rishikesh Maurya, Vageesh D. C2026-03-11💬 cs.CL

N-gram-like Language Models Predict Reading Time Best

Die Studie zeigt, dass Sprachmodelle, deren Vorhersagen stark mit einfachen N-Gramm-Statistiken übereinstimmen, die menschliche Lesedauer besser vorhersagen als komplexere Transformer-Modelle, da die Lesedauer eher auf diese einfachen statistischen Muster als auf hochkomplexe linguistische Strukturen reagiert.

James A. Michaelov, Roger P. Levy2026-03-11💬 cs.CL

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

Die Arbeit stellt mit DoWhatISay (DOWIS) ein multilinguales Datenset aus gesprochener und geschriebener Sprache vor, um Sprach-große Sprachmodelle (SLLMs) realistischer zu evaluieren und zeigt, dass gesprochene Prompts im Vergleich zu Textprompts oft schlechter abschneiden, es sei denn, die Ausgabe ist ebenfalls sprachbasiert.

Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues2026-03-11💬 cs.CL

Benchmarking Political Persuasion Risks Across Frontier Large Language Models

Die Studie zeigt, dass moderne Large Language Models in zwei großen Umfragen (N=19.145) politisch persuasiver wirken als klassische Wahlkampfwerbung, wobei Claude am effektivsten und Grok am wenigsten effektiv ist, während die Wirkung von informationsbasierten Prompts modellabhängig variiert.

Zhongren Chen, Joshua Kalla, Quan Le2026-03-11💬 cs.CL

MSSR: Memory-Aware Adaptive Replay for Continual LLM Fine-Tuning

Die Arbeit stellt MSSR vor, ein Erfahrungswiederholungs-Framework für das kontinuierliche Fine-Tuning von LLMs, das durch die Schätzung der samplespezifischen Gedächtnisstärke und adaptive Intervalle für das Rehearsal katastrophales Vergessen effektiv reduziert, ohne die Anpassungsfähigkeit an neue Aufgaben zu beeinträchtigen.

Yiyang Lu, Yu He, Jianlong Chen, Hongyuan Zha2026-03-11🤖 cs.AI

Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Die Studie zeigt, dass das Aktivieren von Reasoning in LLMs auch bei einfachen Faktenfragen die Parametrische Wissensabrufleistung signifikant steigert, indem es einen rechnerischen Puffereffekt und einen semantischen Priming-Mechanismus nutzt, wobei jedoch Halluzinationen in den Zwischenschritten das Risiko von Fehlern im Endergebnis erhöhen.

Zorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan Herzig2026-03-11💬 cs.CL

Model Merging in the Era of Large Language Models: Methods, Applications, and Future Directions

Diese Übersichtsarbeit stellt das FUSE-Taxonomie-Framework vor, um Methoden, Anwendungen und zukünftige Richtungen des Modell-Mergings im Zeitalter großer Sprachmodelle systematisch zu analysieren und dabei theoretische Grundlagen, algorithmische Ansätze sowie praktische Herausforderungen zu beleuchten.

Mingyang Song, Mao Zheng2026-03-11💬 cs.CL

Think Before You Lie: How Reasoning Improves Honesty

Die Studie zeigt, dass im Gegensatz zum menschlichen Verhalten das Nachdenken bei großen Sprachmodellen die Ehrlichkeit erhöht, da der Prozess des moralischen Abwägens das Modell durch einen verzerrten Repräsentationsraum führt, in dem ehrliche Antworten stabiler sind als täuschende.

Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja Filippova2026-03-11🤖 cs.AI

CREATE: Testing LLMs for Associative Creativity

Das Paper stellt CREATE vor, einen Benchmark zur Bewertung der Fähigkeit von KI-Modellen, assoziatives kreatives Denken durch die Generierung spezifischer und vielfältiger Verbindungen zwischen Konzepten zu testen, wobei Ergebnisse zeigen, dass selbst fortschrittliche Modelle Schwierigkeiten haben, die Komplexität dieser Aufgabe vollständig zu meistern.

Manya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett2026-03-11💬 cs.CL

A Survey of Large Language Models

Diese Arbeit bietet einen umfassenden Überblick über die Entwicklung, Schlüsseltechniken und Anwendungen von Large Language Models (LLMs), wobei sie sich insbesondere auf die Bereiche Pre-Training, Anpassung, Nutzung und Bewertung konzentriert und dabei verfügbare Ressourcen sowie zukünftige Herausforderungen diskutiert.

Wayne Xin Zhao, Kun Zhou, Junyi Li + 19 more2026-03-10💬 cs.CL

Agent-OM: Leveraging LLM Agents for Ontology Matching

Die Studie stellt Agent-OM vor, ein neuartiges Framework für das Ontologie-Matching, das zwei Siamese-Agenten und LLM-Tools nutzt, um bei komplexen und Few-Shot-Aufgaben signifikante Verbesserungen gegenüber bestehenden Systemen zu erzielen.

Zhangcheng Qiang, Weiqing Wang, Kerry Taylor2026-03-10💬 cs.CL

Llama-Mob: Instruction-Tuning Llama-3-8B Excels in City-Scale Mobility Prediction

Die Studie stellt Llama-Mob vor, einen durch Instruction-Tuning optimierten Llama-3-8B-Modell, der durch überlegene Langzeitvorhersagen menschlicher Mobilität und starke Zero-Shot-Generalisierungsfähigkeiten auf verschiedene Städte bestehende Methoden in der städtischen Mobilitätsprognose übertrifft.

Peizhi Tang, Chuang Yang, Tong Xing, Xiaohang Xu, Jiayi Xu, Renhe Jiang, Kaoru Sezaki2026-03-10💬 cs.CL

Speaker effects in language comprehension: An integrative model of language and speaker processing

Dieser Übersichtsartikel stellt ein integratives Modell vor, das Sprach- und Sprecherverarbeitung durch das Zusammenspiel von wahrnehmungsbasierten Bottom-up-Prozessen und erwartungsbasierten Top-down-Prozessen erklärt, wobei sowohl individuelle Vertrautheit als auch soziale Demografie die Sprachwahrnehmung auf mehreren Ebenen modulieren und neue Forschungsrichtungen im Bereich der KI-Sprecher eröffnen.

Hanlin Wu, Zhenguang G. Cai2026-03-10💬 cs.CL

Efficient Continual Learning for Small Language Models with a Discrete Key-Value Bottleneck

Die vorgestellte Arbeit führt einen diskreten Key-Value-Bottleneck für Encoder-only-Sprachmodelle ein, der durch lokalisierte Updates und eine neue Initialisierungstechnik effizientes kontinuierliches Lernen ermöglicht, katastrophales Vergessen reduziert und auch in Szenarien ohne Task-ID wettbewerbsfähige Ergebnisse bei geringeren Rechenkosten erzielt.

Andor Diera, Lukas Galke, Fabian Karl, Ansgar Scherp2026-03-10💬 cs.CL

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Die Arbeit stellt HarmonicEval vor, ein referenzfreies, umfassendes Evaluationsmaß für Vision-Language-Modelle, das in einem Bottom-up-Verfahren kriterienspezifische Scores aggregiert, und führt gleichzeitig den MMHE-Benchmark mit 18.000 menschlichen Urteilen über vier multimodale Aufgaben ein, um die Generalisierbarkeit automatischer Metriken in Multi-Task-Szenarien zu verbessern.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

Exploring Embedding Priors in Prompt-Tuning for Improved Interpretability and Control

Diese Arbeit untersucht den Einfluss von Embedding-Priors auf das Prompt-Tuning, zeigt, dass Modelle auch mit neuartigen Embedding-Bereichen effektiv arbeiten können, und stellt die Bedeutung einer einzigen Aktivierungscluster für die Generalisierungsfähigkeit großer Sprachmodelle in Frage.

Sergey Sedov, Sumanth Bharadwaj Hachalli Karanam, Venu Gopal Kadamba2026-03-10🤖 cs.LG

A Single Model Ensemble Framework for Neural Machine Translation using Pivot Translation

Die vorgestellte Arbeit stellt ein neues Ensemble-Framework für neuronale maschinelle Übersetzung vor, das mithilfe von Pivot-Übersetzungen und einer nachträglichen Aggregation mit nur einem einzigen Modell die Übersetzungsqualität für ressourcenarme Sprachpaare verbessert, ohne die hohen Trainingskosten herkömmlicher Mehrfachmodelle zu verursachen.

Seokjin Oh, Keonwoong Noh, Woohwan Jung2026-03-10💬 cs.CL

GRADIEND: Feature Learning within Neural Networks Exemplified through Biases

Die Studie stellt GRADIEND vor, eine neuartige Encoder-Decoder-Methode, die Modellgradienten nutzt, um gesellschaftliche Vorurteile wie Geschlecht oder Herkunft zu identifizieren und gezielt zu entfernen, ohne dabei andere Fähigkeiten des Modells zu beeinträchtigen.

Jonathan Drechsel, Steffen Herbold2026-03-10🤖 cs.LG

← Zurück Weiter →