cs.CL Arbeiten | Gist.Science

Test-Time Adaptation via Many-Shot Prompting: Benefits, Limits, and Pitfalls

Diese Studie untersucht die Wirksamkeit und Grenzen des Many-Shot-Promptings als Testzeit-Anpassungsmethode für Large Language Models und zeigt, dass sie zwar bei strukturierten Aufgaben mit hohem Informationsgewinn effektiv ist, jedoch bei offenen Generierungsaufgaben stark von der Auswahlstrategie abhängt und oft nur begrenzte Vorteile bietet.

Shubhangi Upasani, Chen Wu, Jay Rainton, Bo Li, Changran Hu, Qizheng Zhang, Urmish Thakker2026-03-09🤖 cs.LG

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

Die Arbeit stellt ReflexiCoder vor, ein Reinforcement-Learning-Framework, das Large Language Models befähigt, Code autonom durch internalisierte Selbstreflexion und Selbstkorrektur zu verbessern, wodurch sie bei algorithmischen Aufgaben neue State-of-the-Art-Ergebnisse erzielen und dabei deutlich token-effizienter sind als herkömmliche Ansätze.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim2026-03-09🤖 cs.LG

ROSE: Reordered SparseGPT for More Accurate One-Shot Large Language Models Pruning

Die Arbeit stellt ROSE vor, eine optimierte Version von SparseGPT, die durch eine adaptive, verlustbasierte Neuordnung der Gewichte die Genauigkeit beim One-Shot-Pruning von Large Language Models signifikant verbessert.

Mingluo Su, Huan Wang2026-03-09🤖 cs.LG

Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation

Die Arbeit stellt CoCA vor, ein auf GRPO-Reinforcement-Learning basierendes Framework, das durch einen „Confidence-First"-Ansatz und segmentierte Kreditvergabe eine gleichzeitige Optimierung von Kalibrierung und Antwortgenauigkeit bei großen Sprachmodellen ermöglicht.

Changcheng Li, Jiancan Wu, Hengheng Zhang, Zhengsu Chen, Guo An, Junxiang Qiu, Xiang Wang, Qi Tian2026-03-09💬 cs.CL

VerChol -- Grammar-First Tokenization for Agglutinative Languages

Das Paper „VerChol" stellt einen grammatikbasierten Tokenisierungsansatz vor, der die morphologischen Grenzen agglutinierender Sprachen bewahrt und die Ineffizienz statistischer Methoden wie Byte Pair Encoding (BPE) überwindet.

Prabhu Raja2026-03-09💬 cs.CL

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Die Arbeit stellt ConStory-Bench, einen Benchmark mit 2.000 Prompts und einer detaillierten Fehler-Taxonomie, sowie ConStory-Checker, ein automatisiertes Prüfverfahren, vor, um Inkonsistenzen in langen von LLMs generierten Geschichten zu analysieren und deren systematische Verteilung zu untersuchen.

Junjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie2026-03-09🤖 cs.AI

Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions

Diese Arbeit stellt eine Ensemble-Methode vor, die mithilfe neu entwickelter Metriken (CPR und TWF) mehrere LLMs kombiniert, um UN-Sicherheitsratsresolutionen kosteneffizient und zuverlässig zu bereinigen und semantisch zu taggen.

Hussein Ghaly2026-03-09💬 cs.CL

InfoGatherer: Principled Information Seeking via Evidence Retrieval and Strategic Questioning

Das Paper stellt InfoGatherer vor, ein Framework, das durch die Kombination von Dokumentenrecherche und gezielten Nachfragen sowie die Nutzung der Dempster-Shafer-Theorie zur Modellierung von Unsicherheit, zuverlässigere und interpretierbare Entscheidungen in hochriskanten Domänen wie Medizin und Recht ermöglicht.

Maksym Taranukhin, Shuyue Stella Li, Evangelos Milios, Geoff Pleiss, Yulia Tsvetkov, Vered Shwartz2026-03-09💬 cs.CL

Learning Next Action Predictors from Human-Computer Interaction

Die Arbeit stellt LongNAP vor, ein neues Modell zur Vorhersage des nächsten Nutzerhandels, das durch die Analyse multimodaler Interaktionsdaten und die Kombination von parametrischem Lernen mit In-Context-Learning aus langen Historien signifikant bessere Ergebnisse erzielt als bestehende Methoden.

Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi, Yikun Chi, Nick Haber, Thomas Robinson, Nilam Ram, Byron Reeves, Sherry Yang, Michael S. Bernstein, Diyi Yang2026-03-09💬 cs.CL

Addressing the Ecological Fallacy in Larger LMs with Human Context

Diese Arbeit zeigt, dass die Berücksichtigung des menschlichen Kontexts (Autoren) durch die HuLM- und HuFT-Methoden die Leistung eines größeren 8B Llama-Modells verbessert und damit die Bedeutung der Modellierung von Sprache im Kontext ihrer ursprünglichen Ersteller unterstreicht.

Nikita Soni, Dhruv Vijay Kunjadiya, Pratham Piyush Shah, Dikshya Mohanty, H. Andrew Schwartz, Niranjan Balasubramanian2026-03-09🤖 cs.AI

Implicit Style Conditioning: A Structured Style-Rewrite Framework for Low-Resource Character Modeling

Die Arbeit stellt ein strukturiertes Stil-Umschreibungs-Framework vor, das durch explizite Entzerrung lexikalischer, syntaktischer und pragmatischer Merkmale sowie implizites Stil-Conditioning mittels CoT-Distillation es kleinen Sprachmodellen ermöglicht, auch bei geringen Datenmengen konsistente und dateneffiziente Charakterrollen zu generieren, die größere Baseline-Modelle übertreffen.

Chanhui Zhu2026-03-09🤖 cs.LG

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

Diese Studie entwickelt interpretierbare Modelle, die psychologische Theorien über die Interaktion von Person und Situation mit Sprachdaten kombinieren, um das dynamische Wohlbefinden in sozialen Medien präziser und nachvollziehbarer zu erfassen als rein embedding-basierte Ansätze.

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

Die Arbeit stellt ProCap vor, ein neuartiges Framework, das die Bildveränderungsbeschreibung durch die explizite Modellierung dynamischer Veränderungsprozesse mittels eines zweistufigen Ansatzes mit einem prozeduralen Encoder und lernbaren Abfragen verbessert, anstatt sich auf statische Bildpaare zu verlassen.

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

Track-SQL: Enhancing Generative Language Models with Dual-Extractive Modules for Schema and Context Tracking in Multi-turn Text-to-SQL

Die Arbeit stellt Track-SQL vor, ein Framework, das generative Sprachmodelle durch duale extraktive Module zur Verfolgung von Schemata und Kontexten verbessert und damit den State-of-the-Art auf den Multi-Turn-Datensätzen SparC und CoSQL erreicht.

Bingfeng Chen, Shaobin Shi, Yongqi Luo, Boyan Xu, Ruichu Cai, Zhifeng Hao2026-03-09💬 cs.CL

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

Die Arbeit stellt MASFactory vor, ein graphenzentriertes Framework zur Orchestrierung von LLM-basierten Multi-Agenten-Systemen, das durch die neuartige „Vibe Graphing"-Methode die Umwandlung natürlicher Sprachabsichten in ausführbare Workflow-Graphen ermöglicht und dabei Wiederverwendbarkeit sowie einfache Integration externer Kontextquellen verbessert.

Yang Liu, Jinxuan Cai, Yishen Li, Qi Meng, Zedi Liu, Xin Li, Chen Qian, Chuan Shi, Cheng Yang2026-03-09🤖 cs.AI

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

Die Arbeit stellt ViewFusion vor, ein zweistufiges Framework, das durch explizite räumliche Vorverarbeitung und verstärktes Lernen die Leistung von Vision-Language-Modellen bei der mehransichtigen räumlichen Schlussfolgerung signifikant verbessert.

Xingjian Tao, Yiwei Wang, Yujun Cai, Yifan Song, Jing Tang2026-03-09💬 cs.CL

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Die Studie zeigt, dass aktuelle Large Language Models zwar in der Lage sind, österreichische A-Level-German-Aufsätze anhand von Bewertungsrastern zu analysieren, jedoch mit einer Übereinstimmungsrate von maximal 40,6 % bei Teilaspekten und nur 32,8 % bei der Endnote noch nicht die notwendige Genauigkeit für den realen Einsatz in der automatisierten Benotung erreichen.

Jonas Kubesch, Lena Huber, Clemens Havas2026-03-09🤖 cs.AI

Experiences Build Characters: The Linguistic Origins and Functional Impact of LLM Personality

Diese Studie zeigt, dass durch unsupervisedes Weiter-Training mit domänenspezifischen Texten simulierte unterschiedliche Erfahrungen die Persönlichkeit von Large Language Models prägen und dabei eine „Unterdrückungsvorteil"-Hypothese aufdecken, wonach reduzierte soziale Merkmale die komplexe reasoning-Leistung steigern, was einen Weg für gezieltes „Personality Engineering" eröffnet.

Xi Wang, Mengdie Zhuang, Jiqun Liu2026-03-09🤖 cs.AI

DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

Die Arbeit stellt DeepSight vor, das erste multimodale Sprachmodell, das speziell für das Verständnis von 3D-Szenen entwickelt wurde, indem es Tiefenkarten direkt mit Sprache verknüpft, neue Datensätze erstellt und den ViT-Encoder von CLIP modifiziert, um die räumliche Wahrnehmung und Leistung in nachgelagerten Aufgaben erheblich zu verbessern.

Hao Yang, Hongbo Zhang, Yanyan Zhao, Bing Qin2026-03-09💬 cs.CL

Making Implicit Premises Explicit in Logical Understanding of Enthymemes

Die vorgestellte Arbeit schlägt eine Pipeline vor, die Large Language Models und einen neuro-symbolischen SAT-Löser kombiniert, um implizite Prämissen in Enthymemen zu identifizieren, natürliche Sprache in logische Formeln zu übersetzen und deren logische Folgerung systematisch zu überprüfen.

Xuyao Feng, Anthony Hunter2026-03-09🤖 cs.AI

← Zurück Weiter →