What Triggers my Model? Contrastive Explanations Inform Gender Choices by Translation Models

Diese Studie untersucht mittels kontrastiver Erklärungen und Saliency-Zuordnung, welche Eingabetokens in englischen Quelltexten die Geschlechterentscheidungen von neuronalen Übersetzungsmodellen in deutsche und spanische Zieltexte auslösen, und zeigt dabei eine deutliche Übereinstimmung zwischen den Modellattributen und menschlichen Geschlechterwahrnehmungen auf.

Janiça Hackenbuchner, Arda Tezcan, Joke Daems2026-03-05💬 cs.CL

Generalization of RLVR Using Causal Reasoning as a Testbed

Diese Studie zeigt, dass Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) die Generalisierungsfähigkeit von Sprachmodellen in der kausalen Schlussfolgerung im Vergleich zur überwachten Feinabstimmung verbessert, jedoch nur dann wirksam ist, wenn die Modelle über eine ausreichende initiale Schlussfolgerungskompetenz verfügen, um ihre Marginalisierungsstrategien und Zwischenschritte zu optimieren.

Brian Lu, Hongyu Zhao, Shuo Sun + 3 more2026-03-05🤖 cs.AI

Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning

Die Arbeit stellt einen effizienten Nachtrainierungsansatz vor, bei dem Wissensgraphen als implizite Belohnungsmodelle dienen, um Sprachmodelle durch abgeleitete Pfadeignale zu befähigen, komplexe mehrstufige Schlussfolgerungen in Fachbereichen wie der Medizin durch Zusammensetzung axiomatischer Fakten zu treffen und dabei deutlich größere Modelle sowie Frontier-Systeme zu übertreffen.

Yuval Kansal, Niraj K. Jha2026-03-05✓ Author reviewed 🤖 cs.AI

When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?

Diese Studie stellt eine neue Trainingspipeline vor, die Chain-of-Thought-Supervision mit abstentionsbewusstem Reinforcement Learning kombiniert, um Large Language Models zu befähigen, bei zeitlichen Fragen unsichere Antworten zu unterlassen und dabei sowohl die Genauigkeit als auch die Zuverlässigkeit im Vergleich zu bestehenden Modellen signifikant zu steigern.

Xinyu Zhou, Chang Jin, Carsten Eickhoff + 2 more2026-03-05🤖 cs.AI

Meenz bleibt Meenz, but Large Language Models Do Not Speak Its Dialect

Diese Studie stellt erstmals einen NLP-fähigen Datensatz für das Mainzer Dialekt „Meenzerisch" vor und zeigt, dass aktuelle Large Language Models trotz verschiedener Optimierungsversuche kaum in der Lage sind, dieses Dialektwort oder dessen Definitionen korrekt zu verarbeiten, was den dringenden Bedarf an weiteren Ressourcen und Forschung für deutsche Dialekte unterstreicht.

Minh Duc Bui, Manuel Mager, Peter Herbert Kann + 1 more2026-03-05💬 cs.CL

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

Die Studie zeigt, dass kleine Open-Source-Sprachmodelle für den klinischen Einsatz in ressourcenarmen Umgebungen zwar konsistente, aber nicht unbedingt korrekte Antworten liefern, wobei Llama 3.2 aufgrund des besten Gleichgewichts aus Genauigkeit und Zuverlässigkeit als vielversprechendste Option hervorgeht.

Shravani Hariprasad2026-03-05🤖 cs.AI

From Variance to Invariance: Qualitative Content Analysis for Narrative Graph Annotation

Diese Arbeit stellt ein qualitatives Inhaltsanalyse-Framework zur Annotation von Inflationsnarrativen als gerichtete azyklische Graphen vor und zeigt durch eine experimentelle Auswertung, dass lokal eingeschränkte Repräsentationen die Annotationsschwankungen verringern, während überlappungsbasierte Metriken die Zuverlässigkeit überschätzen.

Junbo Huang, Max Weinig, Ulrich Fritsche + 1 more2026-03-05🤖 cs.AI

Detecting AI-Generated Essays in Writing Assessment: Responsible Use and Generalizability Across LLMs

Dieses Kapitel bietet einen Überblick über Detektoren für KI-generierte Aufsätze und ihre verantwortungsvolle Nutzung, während es zudem empirisch untersucht, inwiefern Modelle, die auf Texten eines bestimmten Large Language Models trainiert wurden, auf Aufsätze anderer Modelle verallgemeinerbar sind, um praktische Leitlinien für deren Weiterentwicklung zu liefern.

Jiangang Hao2026-03-05💬 cs.CL

Learning to Generate and Extract: A Multi-Agent Collaboration Framework For Zero-shot Document-level Event Arguments Extraction

Diese Arbeit stellt ein Multi-Agenten-Framework vor, das durch die Nachahmung des menschlichen „Vorschlagen-Bewerten-Überarbeiten"-Zyklus und den Einsatz von Reinforcement Learning die Qualität synthetischer Daten sowie die Leistung bei der zero-shot Extraktion von Ereignisargumenten auf Dokumentenebene verbessert.

Guangjun Zhang, Hu Zhang, Yazhou Han + 4 more2026-03-05🤖 cs.AI