cs.CL Arbeiten | Gist.Science

What Triggers my Model? Contrastive Explanations Inform Gender Choices by Translation Models

Diese Studie untersucht mittels kontrastiver Erklärungen und Saliency-Zuordnung, welche Eingabetokens in englischen Quelltexten die Geschlechterentscheidungen von neuronalen Übersetzungsmodellen in deutsche und spanische Zieltexte auslösen, und zeigt dabei eine deutliche Übereinstimmung zwischen den Modellattributen und menschlichen Geschlechterwahrnehmungen auf.

Janiça Hackenbuchner, Arda Tezcan, Joke Daems2026-03-05💬 cs.CL

NRR-Core: Non-Resolution Reasoning as a Computational Framework for Contextual Identity and Ambiguity Preservation

Der Artikel stellt NRR-Core vor, ein Rechenrahmenwerk, das die vorzeitige Auflösung von Mehrdeutigkeiten in KI-Systemen durch Prinzipien wie Nicht-Identität und parallele Interpretation aufhebt, um die semantische Flexibilität bis zum Eintreffen des Kontexts zu bewahren.

Kei Saito2026-03-05🤖 cs.AI

A Systematic Analysis of Biases in Large Language Models

Diese Studie analysiert systematisch die politischen, ideologischen, geopolitischen, sprachlichen und geschlechtsspezifischen Verzerrungen in vier weit verbreiteten Large Language Models und zeigt, dass diese trotz ihrer Ausrichtung auf Neutralität weiterhin verschiedene Arten von Vorurteilen aufweisen.

Xulang Zhang, Rui Mao, Erik Cambria2026-03-05🤖 cs.AI

Generalization of RLVR Using Causal Reasoning as a Testbed

Diese Studie zeigt, dass Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) die Generalisierungsfähigkeit von Sprachmodellen in der kausalen Schlussfolgerung im Vergleich zur überwachten Feinabstimmung verbessert, jedoch nur dann wirksam ist, wenn die Modelle über eine ausreichende initiale Schlussfolgerungskompetenz verfügen, um ihre Marginalisierungsstrategien und Zwischenschritte zu optimieren.

Brian Lu, Hongyu Zhao, Shuo Sun + 3 more2026-03-05🤖 cs.AI

Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

Die Arbeit stellt DevRev-Search vor, einen automatisiert erstellten Benchmark für die technische Kundenunterstützung, der durch eine indexerhaltende Anpassungsstrategie, bei der nur der Query-Encoder feinabgestimmt wird, eine skalierbare und effiziente Lösung für die Domain-Adaption in Multi-Tenant-Suchsystemen bietet.

Prateek Jain, Shabari S Nair, Ritesh Goru + 4 more2026-03-05🤖 cs.AI

Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning

Die Arbeit stellt einen effizienten Nachtrainierungsansatz vor, bei dem Wissensgraphen als implizite Belohnungsmodelle dienen, um Sprachmodelle durch abgeleitete Pfadeignale zu befähigen, komplexe mehrstufige Schlussfolgerungen in Fachbereichen wie der Medizin durch Zusammensetzung axiomatischer Fakten zu treffen und dabei deutlich größere Modelle sowie Frontier-Systeme zu übertreffen.

Yuval Kansal, Niraj K. Jha2026-03-05✓ Author reviewed ⓘ🤖 cs.AI

NRR-Phi: Text-to-State Mapping for Ambiguity Preservation in LLM Inference

Die Arbeit stellt NRR-Phi vor, ein formales Framework zur Text-zu-Zustand-Mapping, das durch eine hybride Extraktionspipeline die vorzeitige semantische Commitment in LLMs verhindert und so die Erhaltung mehrerer Interpretationen in einem nicht-kollabierenden Zustandsraum ermöglicht.

Kei Saito2026-03-05🤖 cs.AI

When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?

Diese Studie stellt eine neue Trainingspipeline vor, die Chain-of-Thought-Supervision mit abstentionsbewusstem Reinforcement Learning kombiniert, um Large Language Models zu befähigen, bei zeitlichen Fragen unsichere Antworten zu unterlassen und dabei sowohl die Genauigkeit als auch die Zuverlässigkeit im Vergleich zu bestehenden Modellen signifikant zu steigern.

Xinyu Zhou, Chang Jin, Carsten Eickhoff + 2 more2026-03-05🤖 cs.AI

Rewards as Labels: Revisiting RLVR from a Classification Perspective

Die Arbeit stellt „Rewards as Labels" (REAL) vor, ein neues Framework, das verifizierbare Belohnungen als kategorische Labels behandelt und das RLVR-Training als Klassifikationsproblem neu formuliert, um Gradientenprobleme zu beheben und die Leistung von Sprachmodellen bei mathematischen Aufgaben signifikant zu steigern.

Zepeng Zhai, Meilin Chen, Jiaxuan Zhao + 3 more2026-03-05🤖 cs.LG

Stopping Computation for Converged Tokens in Masked Diffusion-LM Decoding

Die Arbeit stellt SureLock vor, eine Methode, die die Rechenkosten beim Decodieren von Masked Diffusion-LMs durch das frühzeitige Sperren bereits konvergierter Tokenpositionen und das Cachen ihrer Schlüssel-Werte-Paare um 30–50 % senkt, ohne die Generierungsqualität zu beeinträchtigen.

Daisuke Oba, Danushka Bollegala, Masahiro Kaneko + 1 more2026-03-05🤖 cs.LG

To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks

Die Studie zeigt, dass Large Reasoning Models bei Theory-of-Mind-Aufgaben nicht konsistent besser abschneiden als herkömmliche Modelle, da ihre Leistung durch ineffizientes „langsames Denken" und das Ausnutzen von Multiple-Choice-Optionen beeinträchtigt wird, was neue, spezialisierte Ansätze für soziale Schlussfolgerungen erfordert.

Nanxu Gong, Haotian Li, Sixun Dong + 3 more2026-03-05🤖 cs.AI

Meenz bleibt Meenz, but Large Language Models Do Not Speak Its Dialect

Diese Studie stellt erstmals einen NLP-fähigen Datensatz für das Mainzer Dialekt „Meenzerisch" vor und zeigt, dass aktuelle Large Language Models trotz verschiedener Optimierungsversuche kaum in der Lage sind, dieses Dialektwort oder dessen Definitionen korrekt zu verarbeiten, was den dringenden Bedarf an weiteren Ressourcen und Forschung für deutsche Dialekte unterstreicht.

Minh Duc Bui, Manuel Mager, Peter Herbert Kann + 1 more2026-03-05💬 cs.CL

Extending Czech Aspect-Based Sentiment Analysis with Opinion Terms: Dataset and LLM Benchmarks

Diese Arbeit stellt ein neues tschechisches Datenset für die aspektbasierte Sentimentanalyse mit Opinion-Term-Annotationen vor, bewertet moderne Transformer- und LLM-Modelle in verschiedenen Sprachsettings und schlägt eine skalierbare Übersetzungs- und Label-Alignierungsmethode vor, um Ressourcen für ressourcenarme Sprachen zu erweitern.

Jakub Šmíd, Pavel Přibáň, Pavel Král2026-03-05💬 cs.CL

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

Die Studie zeigt, dass kleine Open-Source-Sprachmodelle für den klinischen Einsatz in ressourcenarmen Umgebungen zwar konsistente, aber nicht unbedingt korrekte Antworten liefern, wobei Llama 3.2 aufgrund des besten Gleichgewichts aus Genauigkeit und Zuverlässigkeit als vielversprechendste Option hervorgeht.

Shravani Hariprasad2026-03-05🤖 cs.AI

A Study on Building Efficient Zero-Shot Relation Extraction Models

Diese Studie untersucht die Robustheit bestehender Zero-Shot-Relationsextraktionsmodelle unter realistischen Bedingungen, führt eine Typologie ein, schlägt Strategien für Single-Pass-Modelle und Ablehnungsmechanismen vor und zeigt, dass zwar keine existierende Arbeit vollständig robust ist, AlignRE jedoch in allen Kriterien die beste Leistung erbringt.

Hugo Thomas, Caio Corro, Guillaume Gravier + 1 more2026-03-05💬 cs.CL

Extracting Training Dialogue Data from Large Language Model based Task Bots

Diese Arbeit untersucht die Privatsphärenrisiken von LLM-basierten Task-Bots, indem sie zeigt, dass diese Trainingsdaten memorieren können, und entwickelt neue Angriffstechniken, um tausende Dialogzustände mit hoher Präzision zu extrahieren, woraus sich gezielte Minderungsstrategien ableiten lassen.

Shuo Zhang, Junzhou Zhao, Junji Hou + 3 more2026-03-05🤖 cs.AI

From Variance to Invariance: Qualitative Content Analysis for Narrative Graph Annotation

Diese Arbeit stellt ein qualitatives Inhaltsanalyse-Framework zur Annotation von Inflationsnarrativen als gerichtete azyklische Graphen vor und zeigt durch eine experimentelle Auswertung, dass lokal eingeschränkte Repräsentationen die Annotationsschwankungen verringern, während überlappungsbasierte Metriken die Zuverlässigkeit überschätzen.

Junbo Huang, Max Weinig, Ulrich Fritsche + 1 more2026-03-05🤖 cs.AI

Detecting AI-Generated Essays in Writing Assessment: Responsible Use and Generalizability Across LLMs

Dieses Kapitel bietet einen Überblick über Detektoren für KI-generierte Aufsätze und ihre verantwortungsvolle Nutzung, während es zudem empirisch untersucht, inwiefern Modelle, die auf Texten eines bestimmten Large Language Models trainiert wurden, auf Aufsätze anderer Modelle verallgemeinerbar sind, um praktische Leitlinien für deren Weiterentwicklung zu liefern.

Jiangang Hao2026-03-05💬 cs.CL

LaTeX Compilation: Challenges in the Era of LLMs

Diese Arbeit analysiert die Grenzen von TeX im Zeitalter von LLMs und stellt Mogan STEM als effizientere, strukturierte WYSIWYG-Alternative vor, die nicht nur bei der Kompilierung und Fehlerlokalisierung überlegen ist, sondern aufgrund seiner geringeren Informationsentropie auch das Fine-Tuning von Sprachmodellen in .tmu-Format begünstigt.

Tianyou Liu, Ziqiang Li, Xurui Liu + 1 more2026-03-05💬 cs.CL

Learning to Generate and Extract: A Multi-Agent Collaboration Framework For Zero-shot Document-level Event Arguments Extraction

Diese Arbeit stellt ein Multi-Agenten-Framework vor, das durch die Nachahmung des menschlichen „Vorschlagen-Bewerten-Überarbeiten"-Zyklus und den Einsatz von Reinforcement Learning die Qualität synthetischer Daten sowie die Leistung bei der zero-shot Extraktion von Ereignisargumenten auf Dokumentenebene verbessert.

Guangjun Zhang, Hu Zhang, Yazhou Han + 4 more2026-03-05🤖 cs.AI

← Zurück Weiter →