PoultryLeX-Net: Domain-Adaptive Dual-Stream Transformer Architecture for Large-Scale Poultry Stakeholder Modeling

Die Studie stellt PoultryLeX-Net vor, eine lexikonbasierte, domain-adaptive Dual-Stream-Transformer-Architektur, die durch die Integration von thematischer Modellierung und kontextuellem Lernen die Sentiment-Analyse in der Geflügelindustrie mit einer Genauigkeit von 97,35 % signifikant verbessert.

Stephen Afrifa, Biswash Khatiwada, Kapalik Khanal, Sanjay Shah, Lingjuan Wang-Li, Ramesh Bahadur Bist2026-03-12💬 cs.CL

CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

Die Autoren stellen den CEI-Benchmark vor, einen Datensatz aus 300 validierten Szenarien, der die Fähigkeit von Sprachmodellen zur pragmatischen Inferenz in verschiedenen Kontexten und Machtverhältnissen bewertet, wobei die inhärente Mehrdeutigkeit der Daten durch eine niedrige, aber informative Inter-Annotator-Übereinstimmung und ein strenges Qualitätskontrollverfahren reflektiert wird.

Jon Chun, Hannah Sussman, Adrian Mangine, Murathan Kocaman, Kirill Sidorko, Abhigya Koirala, Andre McCloud, Gwen Eisenbeis, Wisdom Akanwe, Moustapha Gassama, Eliezer Gonzalez Chirinos, Anne-Duncan Enright, Peter Dunson, Tiffanie Ng, Anna von Rosenstiel, Godwin Idowu2026-03-12💬 cs.CL

Context Over Compute Human-in-the-Loop Outperforms Iterative Chain-of-Thought Prompting in Interview Answer Quality

Die Studie zeigt, dass ein menschlicher Feedback-Loop bei der Bewertung und Verbesserung von Antworten in Verhaltensinterviews im Vergleich zur automatisierten Chain-of-Thought-Prompting-Methode signifikant bessere Ergebnisse in Bezug auf Authentizität und Vertrauen erzielt, dabei weniger Iterationen benötigt und durch Kontextverfügbarkeit statt Rechenleistung limitiert wird.

Kewen Zhu, Zixi Liu, Yanjing Li2026-03-12💬 cs.CL

Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English

Diese Studie nutzt ein automatisiertes Framework zur Bewertung der Übersetzungsqualität von Mandarin-Chinesisch nach Englisch durch verschiedene Large Language Models und Google Translate, wobei sich zeigt, dass die Modelle zwar bei Nachrichten gut abschneiden, aber bei literarischen Texten, insbesondere beim Erhalt kultureller Nuancen und klassischer Referenzen, an Grenzen stoßen.

Yue Zhang, Rodney Beard, John Hawkins, Rohitash Chandra2026-03-12💬 cs.CL

A Retrieval-Augmented Language Assistant for Unmanned Aircraft Safety Assessment and Regulatory Compliance

Diese Arbeit stellt einen auf Retrieval-Augmentation basierenden Assistenten vor, der die Sicherheitsbewertung und regulatorische Compliance von unbemannten Luftfahrzeugen durch eine kontrollierte, zitationsbasierte Architektur unterstützt, die ausschließlich auf autoritativen Quellen beruht und menschliche Expertise zur endgültigen Entscheidungsfindung bewahrt.

Gabriele Immordino, Andrea Vaiuso, Marcello Righi2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Die Studie nutzt Wikidata und Wikipedia, um einen mehrsprachigen Datensatz mit über 26.000 Fragen zu lateinamerikanischen soziokulturellen Themen zu erstellen, mit dem sich nachweisen lässt, dass große Sprachmodelle bei der Behandlung lateinamerikanischer Kulturen im Vergleich zur iberischen spanischen Kultur sowie in den jeweiligen Originalsprachen signifikante Wissenslücken und Verzerrungen aufweisen.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

Die Studie stellt SpreadsheetArena vor, eine Plattform zur blinden Paarvergleichsbewertung von LLM-generierten Tabellenkalkulationsworkbooks, die zeigt, dass Präferenzen für Stil, Struktur und Funktionalität stark variieren und aktuelle Spitzenmodelle oft noch nicht mit domänenspezifischen Best Practices übereinstimmen.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition

Das Paper stellt SENS-ASR vor, ein Verfahren, das die Transkriptionsqualität von Streaming-Spracherkennungssystemen durch die Anreicherung akustischer Informationen mit semantischen Kontextinformationen aus vergangenen Frames verbessert und so den Wortfehlerrate in Szenarien mit begrenztem Kontext signifikant senkt.

Youness Dkhissi (LIUM), Valentin Vielzeuf (LIUM), Elys Allesiardo (LIUM), Anthony Larcher (LIUM)2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

Die vorgestellte Arbeit führt Personalized GRPO (P-GRPO) ein, ein neuartiges Ausrichtungsframework, das durch die Entkopplung der Vorteilsschätzung von der aktuellen Batch-Statistik und die Normalisierung gegenüber gruppenspezifischen Belohnungshistorien die Verzerrung zugunsten dominanter Präferenzen in heterogenen Szenarien überwindet und so eine schnellere Konvergenz sowie eine präzisere Anpassung an individuelle Nutzerpräferenzen ermöglicht.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

Measuring and Eliminating Refusals in Military Large Language Models

Die Studie stellt einen von Veteranen entwickelten Goldstandard-Datensatz vor, um die hohen Ablehnungsraten militärischer Large Language Models zu messen, und demonstriert durch Abliterationstechniken, wie sich diese Raten drastisch senken lassen, um die Zuverlässigkeit von KI-Systemen in kritischen Kampfsituationen zu gewährleisten.

Jack FitzGerald, Dylan Bates, Aristotelis Lazaridis, Aman Sharma, Vincent Lu, Brian King, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Joseph Madigan, Jeremy McLaurin, Luke Kerbs, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman2026-03-12💬 cs.CL

Assessing Cognitive Biases in LLMs for Judicial Decision Support: Virtuous Victim and Halo Effects

Diese Studie untersucht, ob große Sprachmodelle menschliche kognitive Verzerrungen wie den „virtuous victim"-Effekt und Prestige-Halo-Effekte aufweisen, und stellt fest, dass diese Modelle zwar im Vergleich zu Menschen leicht reduzierte Halo-Effekte zeigen, jedoch aufgrund von Modellvariationen und fehlender statistischer Signifikanz bei bestimmten Faktoren derzeit noch nicht für die richterliche Entscheidungsunterstützung geeignet sind.

Sierra S. Liu2026-03-12💻 cs

DeliberationBench: A Normative Benchmark for the Influence of Large Language Models on Users' Views

Die Studie stellt DeliberationBench vor, einen normativen Benchmark, der die Beeinflussung von Nutzern durch große Sprachmodelle anhand deliberativer Meinungsumfragen bewertet und zeigt, dass diese Modelle in einem randomisierten Experiment mit über 4.000 Teilnehmern einen signifikanten, demokratisch legitimen und epistemisch wünschenswerten Einfluss auf die Meinungsbildung ausüben.

Luke Hewitt, Maximilian Kroner Dale, Paul de Font-Reaulx2026-03-12💻 cs

Prompts and Prayers: the Rise of GPTheology

Diese Studie untersucht das Aufkommen der „GPTheologie" als Form der Techno-Religion, bei der KI-Modelle wie ChatGPT als orakelartige, halb-göttliche Wesen verehrt werden, und analysiert anhand von Online-Community-Diskursen und globalen Projekten, wie sich narrative, rituelle und ethische Dimensionen traditioneller Religionen mit künstlicher Intelligenz vermischen.

Ioana Cheres, Adrian Groza, Ioana Moldovan, Mick O'Hara, Connell Vaughan2026-03-12💻 cs