cs.CL Arbeiten | Gist.Science

The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate

Diese Studie zeigt, dass Large Language Models bei Bewertungsaufgaben signifikant schlechter abschneiden als bei Generierungsaufgaben und dabei oft unzuverlässige Bewertungen liefern, was die Notwendigkeit unterstreicht, die Zuverlässigkeit von KI-Modellen als Evaluatoren kritisch zu hinterfragen.

Juhyun Oh, Eunsu Kim, Inha Cha, Alice Oh2026-03-09💻 cs

Sentiment Analysis of Citations in Scientific Articles Using ChatGPT: Identifying Potential Biases and Conflicts of Interest

Diese Studie untersucht den innovativen Einsatz von ChatGPT zur Sentimentanalyse von Zitierungen in wissenschaftlichen Artikeln, um deren Rezeption zu bewerten sowie potenzielle Verzerrungen und Interessenkonflikte aufzudecken und so die Objektivität der wissenschaftlichen Literaturbewertung zu stärken.

Walid Hariri2026-03-09💬 cs.CL

Transforming Agency. On the mode of existence of Large Language Models

Die Studie kommt zu dem Schluss, dass Large Language Models aufgrund fehlender körperlicher und normativer Voraussetzungen keine autonomen Agenten sind, sondern als sprachliche Automaten fungieren, die dennoch durch ihre spezifische Verleiblichung und die menschlich-maschinelle Kopplung neue Formen von „mittendriger" (midtended) Handlungsfähigkeit ermöglichen.

Xabier E. Barandiaran, Lola S. Almendros2026-03-09🤖 cs.AI

Do Prevalent Bias Metrics Capture Allocational Harms from LLMs?

Die Studie zeigt, dass gängige Bias-Metriken für Large Language Models die tatsächlichen Verteilungsschäden bei der Ressourcenallokation nicht zuverlässig erfassen, da sie die Diskrepanz zwischen Vorhersagen und den daraus resultierenden Entscheidungen ignorieren.

Hannah Cyberey, Yangfeng Ji, David Evans2026-03-09💬 cs.CL

Goldfish: Monolingual Language Models for 350 Languages

Das Paper stellt Goldfish vor, eine Suite von über 1.000 kleinen monolingualen Sprachmodellen für 350 Sprachen, die selbst mit sehr wenig Daten trainiert wurden und dabei große multilinguale Modelle sowohl in der Perplexität als auch in der grammatikalischen Korrektheit übertreffen.

Tyler A. Chang, Catherine Arnett, Zhuowen Tu, Benjamin K. Bergen2026-03-09💬 cs.CL

Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models

Diese Arbeit stellt einen ressourceneffizienten und interpretierbaren Ansatz zur Entbiasierung von Large Language Models vor, der bei der Dekodierung kleine, spezialisierte Expertenmodelle nutzt, um Vorurteile zu reduzieren, ohne die Sprachleistung zu beeinträchtigen.

Schrasing Tong, Eliott Zemour, Jessica Lu, Rawisara Lohanimit, Lalana Kagal2026-03-09💬 cs.CL

SpecFuse: Ensembling Large Language Models via Next-Segment Prediction

Das Paper stellt SpecEM vor, ein trainingsfreies Ensemble-Framework für große Sprachmodelle, das durch segmentweise Vorhersage und eine Online-Feedback-Mechanik zur dynamischen Gewichtsanpassung die Leistungsfähigkeit bestehender Ensemble-Methoden verbessert.

Bo Lv, Nayu Liu, Chen Tang, Xin Liu, Yue Yu, Ping Luo2026-03-09🤖 cs.AI

Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

Das Paper stellt LEO vor, eine effiziente Architektur für multimodale Sprachmodelle, die durch eine leichte Kombination aus unabhängigen Projektoren, sequenzieller Verflechtung von Bildkacheln und dynamischer Tiling mit globalem Kontext die Leistung bestehender Mixture-of-Vision-Encoders-Ansätze auf zahlreichen Benchmarks und im autonomen Fahren verbessert.

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki2026-03-09💬 cs.CL

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

Diese Übersichtsarbeit bietet einen strukturierten Überblick über den Einsatz von Large Multimodal Language Models im gesamten wissenschaftlichen Lebenszyklus, von der Literaturrecherche und Ideengenerierung bis hin zur Inhaltserstellung, Bewertung und den damit verbundenen ethischen Herausforderungen.

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI

Conditioning LLMs to Generate Code-Switched Text

Diese Arbeit stellt eine Methode vor, bei der LLMs durch Feinabstimmung auf einem parallelen Korpus, das durch Rückübersetzung natürlicher Code-Switching-Sätze entsteht, trainiert werden, um fließende englisch-spanische Code-Switching-Texte zu generieren, wobei sich zeigt, dass LLM-basierte Bewertungen besser mit menschlichen Präferenzen übereinstimmen als traditionelle Metriken.

Maite Heredia, Gorka Labaka, Jeremy Barnes, Aitor Soroa2026-03-09🤖 cs.AI

CAReDiO: Cultural Alignment via Representativeness and Distinctiveness Guided Data Optimization

Das Paper stellt CAReDiO vor, ein neuartiges Datenoptimierungsframework, das mithilfe informationstheoretischer Ziele die Repräsentativität und Distinktivität kulturspezifischer Trainingsdaten verbessert und so eine effiziente kulturelle Ausrichtung von Sprachmodellen mit nur wenigen Beispielen ermöglicht.

Jing Yao, Xiaoyuan Yi, Jindong Wang, Zhicheng Dou, Xing Xie2026-03-09💬 cs.CL

RM-R1: Reward Modeling as Reasoning

Die Arbeit stellt Reasoning Reward Models (ReasRMs) vor, insbesondere die RM-R1-Familie, die durch die Umformulierung des Reward-Modeling als Reasoning-Aufgabe mit einem Chain-of-Rubrics-Mechanismus und einem zweistufigen Trainingsprozess die Interpretierbarkeit und Leistung von Belohnungsmodellen signifikant steigern.

Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji2026-03-09🤖 cs.AI

Maximizing Asynchronicity in Event-based Neural Networks

Diese Arbeit stellt EVA vor, ein neuartiges asynchrones Framework, das durch die Übertragung von Sprachmodellierungstechniken auf die Ereignisverarbeitung überlegene Merkmalsrepräsentationen für Erkennungs- und Detektionsaufgaben in der ereignisbasierten Computer Vision ermöglicht.

Haiqing Hao, Nikola Zubic, Weihua He, Zhipeng Sui, Davide Scaramuzza, Wenhui Wang2026-03-09🤖 cs.AI

Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering

Die Studie zeigt, dass durch feingranulare, bedingte Aktivierungssteuerung (K-CAST) die Verzerrung von Sprachmodellen zugunsten inhaltlicher Plausibilität gegenüber formaler logischer Gültigkeit effektiv reduziert und die Genauigkeit beim logischen Schlussfolgern um bis zu 15 % verbessert werden kann.

Marco Valentino, Geonhee Kim, Dhairya Dalal, Zhixue Zhao, André Freitas2026-03-09🤖 cs.AI

AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference

Das Paper stellt AdAEM vor, einen adaptiven und automatisierten Algorithmus, der durch die dynamische Generierung kontroverser Testfragen die Wertedifferenzen und kulturellen Ausrichtungen von Large Language Models präziser und informativer misst als statische Benchmarks.

Jing Yao, Shitong Duan, Xiaoyuan Yi, Dongkuan Xu, Peng Zhang, Tun Lu, Ning Gu, Zhicheng Dou, Xing Xie2026-03-09🤖 cs.AI

From Raw Corpora to Domain Benchmarks: Automated Evaluation of LLM Domain Expertise

Diese Arbeit stellt eine deterministische Pipeline vor, die Rohdaten aus spezifischen Domänen automatisch in unvoreingenommene, LLM-unabhängige Benchmarks für die Bewertung von Fachwissen in Sprachmodellen umwandelt und dabei Kontaminationsprobleme sowie hohe Kosten für manuelle Annotation vermeidet.

Nitin Sharma, Thomas Wolfers, Ça\u{g}atay Yıldız2026-03-09💬 cs.CL

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

Die Arbeit stellt Sysformer vor, ein trainierbares Transformer-Modell, das durch die adaptive Anpassung von Systemprompts in Eingabe-Embedding-Räumen die Sicherheit und Robustheit von eingefrorenen Large Language Models gegenüber schädlichen Eingaben und Jailbreak-Angriffen signifikant verbessert, ohne die Modellparameter selbst nachtrainieren zu müssen.

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

Die Arbeit stellt VLMQ vor, einen post-training-Quantisierungsrahmen für Vision-Sprach-Modelle, der durch die Identifizierung und Berücksichtigung von visueller Überrepräsentation sowie einer Modality-Gap und die selektive Priorisierung salienter Token mittels eines gradientenbasierten Wichtigkeitsfaktors die Quantisierungsleistung insbesondere bei niedrigen Bitbreiten signifikant verbessert.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

Agri-Query: A Case Study on RAG vs. Long-Context LLMs for Cross-Lingual Technical Question Answering

Die Studie „Agri-Query" zeigt, dass eine hybride Retrieval-Augmented-Generation (RAG)-Strategie bei der cross-lingualen technischen Fragebeantwortung auf Basis eines landwirtschaftlichen Handbuchs konsistent besser abschneidet als direkte Long-Context-Prompting-Verfahren, wobei Modelle wie Gemini 2.5 Flash und Qwen 2.5 7B mit RAG eine Genauigkeit von über 85 % erreichen.

Julius Gun, Timo Oksanen2026-03-09💬 cs.CL

CMRAG: Co-modality-based visual document retrieval and question answering

Die Arbeit stellt CMRAG vor, ein Framework für die visuelle Dokumentenabfrage, das durch die gleichzeitige Nutzung von Text- und Bildinformationen sowie ein einheitliches Kodierungsmodell und eine abgestimmte Retrieval-Methode die Leistung von Retrieval-Augmented-Generation-Systemen verbessert und dabei einen großen tripletbasierten Datensatz bereitstellt.

Wang Chen, Wenhan Yu, Guanqiang Qi, Weikang Li, Yang Li, Lei Sha, Deguo Xia, Jizhou Huang2026-03-09💬 cs.CL

← Zurück Weiter →