cs.AI Arbeiten | Gist.Science

PoultryLeX-Net: Domain-Adaptive Dual-Stream Transformer Architecture for Large-Scale Poultry Stakeholder Modeling

Die Studie stellt PoultryLeX-Net vor, eine lexikonbasierte, domain-adaptive Dual-Stream-Transformer-Architektur, die durch die Integration von thematischer Modellierung und kontextuellem Lernen die Sentiment-Analyse in der Geflügelindustrie mit einer Genauigkeit von 97,35 % signifikant verbessert.

Stephen Afrifa, Biswash Khatiwada, Kapalik Khanal, Sanjay Shah, Lingjuan Wang-Li, Ramesh Bahadur Bist2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Der Artikel stellt TAMUSA-Chat vor, ein Forschungsrahmenwerk für die Entwicklung von domänenspezifischen, verantwortungsvoll eingesetzten konversationellen KI-Systemen an Hochschulen durch Feinabstimmung und retrievalgestützte Generierung.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

Die Autoren stellen den CEI-Benchmark vor, einen Datensatz aus 300 validierten Szenarien, der die Fähigkeit von Sprachmodellen zur pragmatischen Inferenz in verschiedenen Kontexten und Machtverhältnissen bewertet, wobei die inhärente Mehrdeutigkeit der Daten durch eine niedrige, aber informative Inter-Annotator-Übereinstimmung und ein strenges Qualitätskontrollverfahren reflektiert wird.

Jon Chun, Hannah Sussman, Adrian Mangine, Murathan Kocaman, Kirill Sidorko, Abhigya Koirala, Andre McCloud, Gwen Eisenbeis, Wisdom Akanwe, Moustapha Gassama, Eliezer Gonzalez Chirinos, Anne-Duncan Enright, Peter Dunson, Tiffanie Ng, Anna von Rosenstiel, Godwin Idowu2026-03-12💬 cs.CL

Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

Die Studie zeigt, dass große Sprachmodelle zwar kompositionelle Repräsentationen für Adjektiv-Nomen-Kombinationen entwickeln, diese jedoch nicht konsistent in funktionale Aufgabenleistung umsetzen, was die Notwendigkeit einer kontrastiven Evaluierung unterstreicht.

Ruchira Dhar, Qiwei Peng, Anders Søgaard2026-03-12💬 cs.CL

Context Over Compute Human-in-the-Loop Outperforms Iterative Chain-of-Thought Prompting in Interview Answer Quality

Die Studie zeigt, dass ein menschlicher Feedback-Loop bei der Bewertung und Verbesserung von Antworten in Verhaltensinterviews im Vergleich zur automatisierten Chain-of-Thought-Prompting-Methode signifikant bessere Ergebnisse in Bezug auf Authentizität und Vertrauen erzielt, dabei weniger Iterationen benötigt und durch Kontextverfügbarkeit statt Rechenleistung limitiert wird.

Kewen Zhu, Zixi Liu, Yanjing Li2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Diese Studie bewertet die Robustheit und pädagogische Sicherheit von offline einsetzbaren Large Language Models im Kontext des Türkisch-Unterrichts und stellt fest, dass Modelle mit 8 bis 14 Milliarden Parametern den besten Kompromiss zwischen Kosten und Sicherheit bieten, wobei Anomaliewiderstand nicht allein von der Modellgröße abhängt.

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

Die Studie widerlegt die Behauptung, dass neuere GPT-Modelle Empathie verloren haben, und zeigt stattdessen, dass sich die wahrgenommene Veränderung auf eine verschärfte Sicherheitsausrichtung zurückführen lässt, die zwar die Krisenerkennung verbessert, aber gleichzeitig zu einer Verschlechterung der Beratungssicherheit führt.

Michael Keeman, Anastasia Keeman2026-03-12💬 cs.CL

Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English

Diese Studie nutzt ein automatisiertes Framework zur Bewertung der Übersetzungsqualität von Mandarin-Chinesisch nach Englisch durch verschiedene Large Language Models und Google Translate, wobei sich zeigt, dass die Modelle zwar bei Nachrichten gut abschneiden, aber bei literarischen Texten, insbesondere beim Erhalt kultureller Nuancen und klassischer Referenzen, an Grenzen stoßen.

Yue Zhang, Rodney Beard, John Hawkins, Rohitash Chandra2026-03-12💬 cs.CL

A Retrieval-Augmented Language Assistant for Unmanned Aircraft Safety Assessment and Regulatory Compliance

Diese Arbeit stellt einen auf Retrieval-Augmentation basierenden Assistenten vor, der die Sicherheitsbewertung und regulatorische Compliance von unbemannten Luftfahrzeugen durch eine kontrollierte, zitationsbasierte Architektur unterstützt, die ausschließlich auf autoritativen Quellen beruht und menschliche Expertise zur endgültigen Entscheidungsfindung bewahrt.

Gabriele Immordino, Andrea Vaiuso, Marcello Righi2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Die Studie nutzt Wikidata und Wikipedia, um einen mehrsprachigen Datensatz mit über 26.000 Fragen zu lateinamerikanischen soziokulturellen Themen zu erstellen, mit dem sich nachweisen lässt, dass große Sprachmodelle bei der Behandlung lateinamerikanischer Kulturen im Vergleich zur iberischen spanischen Kultur sowie in den jeweiligen Originalsprachen signifikante Wissenslücken und Verzerrungen aufweisen.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

Die Studie stellt SpreadsheetArena vor, eine Plattform zur blinden Paarvergleichsbewertung von LLM-generierten Tabellenkalkulationsworkbooks, die zeigt, dass Präferenzen für Stil, Struktur und Funktionalität stark variieren und aktuelle Spitzenmodelle oft noch nicht mit domänenspezifischen Best Practices übereinstimmen.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition

Das Paper stellt SENS-ASR vor, ein Verfahren, das die Transkriptionsqualität von Streaming-Spracherkennungssystemen durch die Anreicherung akustischer Informationen mit semantischen Kontextinformationen aus vergangenen Frames verbessert und so den Wortfehlerrate in Szenarien mit begrenztem Kontext signifikant senkt.

Youness Dkhissi (LIUM), Valentin Vielzeuf (LIUM), Elys Allesiardo (LIUM), Anthony Larcher (LIUM)2026-03-12💬 cs.CL

GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

Diese Arbeit zeigt, dass für die feinkörnige Klassifizierung arabischer medizinischer Texte über 82 Kategorien spezialisierte bidirektionale Encoder wie AraBERTv2 aufgrund ihrer Fähigkeit, globale semantische Kontexte zu erfassen, deutlich besser abschneiden als kausale Decoder-Modelle.

Ahmed Khaled Khamis2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

Die vorgestellte Arbeit führt Personalized GRPO (P-GRPO) ein, ein neuartiges Ausrichtungsframework, das durch die Entkopplung der Vorteilsschätzung von der aktuellen Batch-Statistik und die Normalisierung gegenüber gruppenspezifischen Belohnungshistorien die Verzerrung zugunsten dominanter Präferenzen in heterogenen Szenarien überwindet und so eine schnellere Konvergenz sowie eine präzisere Anpassung an individuelle Nutzerpräferenzen ermöglicht.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

FERRET: Framework for Expansion Reliant Red Teaming

Die Arbeit stellt FERRET vor, ein automatisiertes Framework für Red Teaming, das durch horizontale, vertikale und meta-Expansion effizientere und wirksamere multimodale adversariale Gespräche generiert und dabei bestehende State-of-the-Art-Ansätze übertrifft.

Ninareh Mehrabi, Vitor Albiero, Maya Pavlova, Joanna Bitton2026-03-12💬 cs.CL

Measuring and Eliminating Refusals in Military Large Language Models

Die Studie stellt einen von Veteranen entwickelten Goldstandard-Datensatz vor, um die hohen Ablehnungsraten militärischer Large Language Models zu messen, und demonstriert durch Abliterationstechniken, wie sich diese Raten drastisch senken lassen, um die Zuverlässigkeit von KI-Systemen in kritischen Kampfsituationen zu gewährleisten.

Jack FitzGerald, Dylan Bates, Aristotelis Lazaridis, Aman Sharma, Vincent Lu, Brian King, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Joseph Madigan, Jeremy McLaurin, Luke Kerbs, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman2026-03-12💬 cs.CL

Assessing Cognitive Biases in LLMs for Judicial Decision Support: Virtuous Victim and Halo Effects

Diese Studie untersucht, ob große Sprachmodelle menschliche kognitive Verzerrungen wie den „virtuous victim"-Effekt und Prestige-Halo-Effekte aufweisen, und stellt fest, dass diese Modelle zwar im Vergleich zu Menschen leicht reduzierte Halo-Effekte zeigen, jedoch aufgrund von Modellvariationen und fehlender statistischer Signifikanz bei bestimmten Faktoren derzeit noch nicht für die richterliche Entscheidungsunterstützung geeignet sind.

Sierra S. Liu2026-03-12💻 cs

DeliberationBench: A Normative Benchmark for the Influence of Large Language Models on Users' Views

Die Studie stellt DeliberationBench vor, einen normativen Benchmark, der die Beeinflussung von Nutzern durch große Sprachmodelle anhand deliberativer Meinungsumfragen bewertet und zeigt, dass diese Modelle in einem randomisierten Experiment mit über 4.000 Teilnehmern einen signifikanten, demokratisch legitimen und epistemisch wünschenswerten Einfluss auf die Meinungsbildung ausüben.

Luke Hewitt, Maximilian Kroner Dale, Paul de Font-Reaulx2026-03-12💻 cs

Prompts and Prayers: the Rise of GPTheology

Diese Studie untersucht das Aufkommen der „GPTheologie" als Form der Techno-Religion, bei der KI-Modelle wie ChatGPT als orakelartige, halb-göttliche Wesen verehrt werden, und analysiert anhand von Online-Community-Diskursen und globalen Projekten, wie sich narrative, rituelle und ethische Dimensionen traditioneller Religionen mit künstlicher Intelligenz vermischen.

Ioana Cheres, Adrian Groza, Ioana Moldovan, Mick O'Hara, Connell Vaughan2026-03-12💻 cs

Defining AI Models and AI Systems: A Framework to Resolve the Boundary Problem

Dieser Beitrag schlägt ein konzeptionelles und operatives Definitionsrahmenwerk vor, das die oft unklare Grenze zwischen KI-Modellen und KI-Systemen auflöst, um die Zuweisung regulatorischer Pflichten entlang der KI-Wertschöpfungskette zu präzisieren.

Yuanyuan Sun, Timothy Parker, Lara Gierschmann, Sana Shams, Teo Canmetin, Mathieu Duteil, Rokas Gipiškis, Ze Shen Chin2026-03-12🤖 cs.AI

← Zurück Weiter →