cs.CL Arbeiten | Gist.Science

Sandpiper: Orchestrated AI-Annotation for Educational Discourse at Scale

Die Arbeit stellt Sandpiper vor, ein gemischt-initiatives System, das interaktive Dashboards mit agenten Großsprachmodellen kombiniert, um die skalierbare und methodisch rigorose Analyse von Bildungsdaten bei gleichzeitiger Wahrung des Datenschutzes und der Vermeidung von Halluzinationen zu ermöglichen.

Daryl Hedley, Doug Pietrzak, Jorge Dias, Ian Burden, Bakhtawar Ahtisham, Zhuqian Zhou, Kirk Vanacore, Josh Marland, Rachel Slama, Justin Reich, Kenneth Koedinger, René Kizilcec2026-03-10💬 cs.CL

Aligning to Illusions: Choice Blindness in Human and AI Feedback

Die Studie zeigt, dass sowohl menschliche als auch KI-gestützte Feedback-Präferenzen durch Choice Blindness und kontextuelle Manipulationen verzerrt werden, was zu einer unentdeckten Degradierung von RLHF-Modellen führt, da die zugrundeliegenden Signale nicht stabil sind und von oberflächlichen Mustern statt echter Selbstüberwachung abhängen.

Wenbin Wu2026-03-10💬 cs.CL

One Model Is Enough: Native Retrieval Embeddings from LLM Agent Hidden States

Die vorgestellte Methode eliminiert die Notwendigkeit separater Embedding-Modelle für LLM-Agenten, indem sie einen leichten Projektionskopf verwendet, um versteckte Zustände direkt in den Embedding-Raum zu projizieren, und erreicht dabei 97 % der ursprünglichen Suchqualität.

Bo Jiang2026-03-10💬 cs.CL

Can Vision-Language Models Solve the Shell Game?

Die Studie stellt VET-Bench vor, einen Benchmark, der zeigt, dass aktuelle Vision-Language-Modelle beim Verfolgen ununterscheidbarer Objekte scheitern, und schlägt mit SGCoT eine Methode vor, die durch explizite Trajektorien-Generierung die Genauigkeit auf über 90 % steigert.

Tiedong Liu, Wee Sun Lee2026-03-10💬 cs.CL

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

Diese prospektive Machbarkeitsstudie zeigt, dass ein konversationsbasiertes KI-System (AMIE) in einer realen ambulanten Umgebung sicher eingesetzt werden kann, von Patienten und Ärzten positiv bewertet wird und in Bezug auf Diagnosequalität und Behandlungspläne mit Hausärzten vergleichbar ist, wenngleich diese bei der praktischen Umsetzbarkeit und Kosteneffizienz überlegen sind.

Peter Brodeur, Jacob M. Koshy, Anil Palepu, Khaled Saab, Ava Homiar, Roma Ruparel, Charles Wu, Ryutaro Tanno, Joseph Xu, Amy Wang, David Stutz, Hannah M. Ferrera, David Barrett, Lindsey Crowley, Jihyeon Lee, Spencer E. Rittner, Ellery Wulczyn, Selena K. Zhang, Elahe Vedadi, Christine G. Kohn, Kavita Kulkarni, Vinay Kadiyala, Sara Mahdavi, Wendy Du, Jessica Williams, David Feinbloom, Renee Wong, Tao Tu, Petar Sirkovic, Alessio Orlandi, Christopher Semturs, Yun Liu, Juraj Gottweis, Dale R. Webster, Joëlle Barral, Katherine Chou, Pushmeet Kohli, Avinatan Hassidim, Yossi Matias, James Manyika, Rob Fields, Jonathan X. Li, Marc L. Cohen, Vivek Natarajan, Mike Schaekermann, Alan Karthikesalingam, Adam Rodman2026-03-10🤖 cs.LG

A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

Diese Arbeit stellt das erste frei verfügbare englisch-schwedische Datenset vor, das Übersetzungsdeutsch mit idiomatischen Alternativen vergleicht und zeigt, dass Sprachmodelle oft zu wörtlichen Übersetzungen neigen, insbesondere wenn der Quelltext verfügbar ist.

Jenny Kunz, Anja Jarochenko, Marcel Bollmann2026-03-10💬 cs.CL

LycheeCluster: Efficient Long-Context Inference with Structure-Aware Chunking and Hierarchical KV Indexing

LycheeCluster ist eine neuartige Methode zur effizienten Verwaltung des KV-Caches bei Large Language Models, die durch semantisch bewusste Chunking und hierarchische Indizierung die lineare Suchkomplexität in logarithmische Zeit umwandelt und damit eine bis zu 3,6-fache Beschleunigung der Inferenz bei minimalen Leistungseinbußen ermöglicht.

Dongfang Li, Zixuan Liu, Gang Lin, Baotian Hu, Min Zhang2026-03-10🤖 cs.LG

Fanar-Sadiq: A Multi-Agent Architecture for Grounded Islamic QA

Der Artikel stellt Fanar-Sadiq vor, ein bilingualer (arabisch/englisch) Multi-Agenten-Assistent, der durch eine spezialisierte, werkzeuggestützte Architektur und Retrieval-Augmented Generation (RAG) halluzinationsfreie, zitiergenaue Antworten auf islamische Rechtsfragen, Koranverse sowie exakte Berechnungen für Zakat und Erbrecht liefert.

Ummar Abbas, Mourad Ouzzani, Mohamed Y. Eltabakh, Omar Sinan, Gagan Bhatia, Hamdy Mubarak, Majd Hawasly, Mohammed Qusay Hashim, Kareem Darwish, Firoj Alam2026-03-10💬 cs.CL

Drift-to-Action Controllers: Budgeted Interventions with Online Risk Certificates

Die Arbeit stellt Drift2Act vor, einen Controller, der durch die Kombination von Drift-Erkennung und aktiven Risikozertifikaten mit verzögerten Labels das Monitoring von Machine-Learning-Systemen in einen sicheren, budgetierten Entscheidungsprozess umwandelt, der bei Distribution-Drift automatisch zwischen kostengünstigen Anpassungen und sicheren Eskalationen wählt.

Ismail Lamaakal, Chaymae Yahyati, Khalid El Makkaoui, Ibrahim Ouahbi, Yassine Maleh2026-03-10🤖 cs.LG

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

Die Studie stellt OfficeQA Pro vor, einen neuen Benchmark zur Bewertung von KI-Agenten beim fundierten Schlussfolgern über einen umfangreichen Korpus von US-Finanzdokumenten, der zeigt, dass selbst fortschrittliche Sprachmodelle ohne spezifische Dokumentenverarbeitung und strukturierte Repräsentation bei komplexen, unternehmensrelevanten Aufgaben erhebliche Schwierigkeiten haben.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen2026-03-10💬 cs.CL

CODA: Difficulty-Aware Compute Allocation for Adaptive Reasoning

Die Arbeit stellt CODA vor, eine Methode zur adaptiven Zuweisung von Rechenressourcen, die durch die Schätzung der Aufgabenschwierigkeit unnötige Token-Ausgaben bei einfachen Aufgaben reduziert und bei komplexen Problemen gezielte Vertiefung fördert, um so die Gesamteffizienz zu maximieren.

Siye Wu, Jian Xie, Yikai Zhang, Yanghua Xiao2026-03-10💬 cs.CL

How Far Can Unsupervised RLVR Scale LLM Training?

Diese Arbeit analysiert umfassend das unüberwachte Reinforcement Learning mit verifizierbaren Belohnungen (URLVR), zeigt auf, dass intrinsische Belohnungsmethoden aufgrund einer theoretisch bedingten Konvergenz zur Verschärfung der anfänglichen Modellverteilung zwangsläufig in einem „Rise-and-Fall"-Muster mit anschließendem Zusammenbruch enden, und schlägt externe Belohnungsmechanismen als vielversprechende Alternative zur Überwindung dieser Skalierungsgrenzen vor.

Bingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou, Zhiyuan Liu, Ning Ding2026-03-10🤖 cs.LG

Agentic Critical Training

Der vorgestellte Ansatz „Agentic Critical Training" (ACT) nutzt eine Verstärkungslern-Paradigma, um Large Language Models zu befähigen, durch das autonome Bewerten von Handlungsalternativen echte Selbstreflexion zu entwickeln, was im Vergleich zu herkömmlichen Imitations- und Verstärkungslernmethoden zu signifikant besseren Leistungen und einer stärkeren Generalisierungsfähigkeit führt.

Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang2026-03-10🤖 cs.LG

Analyzing the Performance of ChatGPT in Cardiology and Vascular Pathologies

Die Studie zeigt, dass ChatGPT bei der Beantwortung von 190 anspruchsvollen Multiple-Choice-Fragen aus den Bereichen Kardiologie und Gefäßerkrankungen mit einer Trefferquote von 92,10 % zwei medizinische Studierende mit 85,78 % bzw. 82,63 % übertroffen hat und somit ein vielversprechendes Werkzeug für die medizinische Ausbildung darstellt.

Walid Hariri2026-03-09💬 cs.CL

The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate

Diese Studie zeigt, dass Large Language Models bei Bewertungsaufgaben signifikant schlechter abschneiden als bei Generierungsaufgaben und dabei oft unzuverlässige Bewertungen liefern, was die Notwendigkeit unterstreicht, die Zuverlässigkeit von KI-Modellen als Evaluatoren kritisch zu hinterfragen.

Juhyun Oh, Eunsu Kim, Inha Cha, Alice Oh2026-03-09💻 cs

Sentiment Analysis of Citations in Scientific Articles Using ChatGPT: Identifying Potential Biases and Conflicts of Interest

Diese Studie untersucht den innovativen Einsatz von ChatGPT zur Sentimentanalyse von Zitierungen in wissenschaftlichen Artikeln, um deren Rezeption zu bewerten sowie potenzielle Verzerrungen und Interessenkonflikte aufzudecken und so die Objektivität der wissenschaftlichen Literaturbewertung zu stärken.

Walid Hariri2026-03-09💬 cs.CL

Computational lexical analysis of Flamenco genres

Diese Studie nutzt computergestützte lexikalische Analysen und maschinelles Lernen, um über 2000 Flamenco-Texte automatisch ihren jeweiligen Stilen („palos") zuzuordnen, semantische Felder zu identifizieren und durch Netzwerkanalysen historische Verbindungen sowie die Evolution dieser Musiktradition quantitativ zu beleuchten.

Pablo Rosillo-Rodes, Maxi San Miguel, David Sanchez2026-03-09💬 cs.CL

Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition

Diese Arbeit stellt eine neuartige zweistufige Pipeline für die automatische Spracherkennung vor, die unüberwachtes Clustering von X-Vektoren mit einem auf Monte-Carlo-Dropout basierenden bayesschen Batch-Active-Learning kombiniert, um durch strategische Stichprobenauswahl den Labelaufwand zu minimieren und die Modellleistung zu optimieren.

Ognjen Kundacina, Vladimir Vincan, Dragisa Miskovic2026-03-09⚡ eess

Transforming Agency. On the mode of existence of Large Language Models

Die Studie kommt zu dem Schluss, dass Large Language Models aufgrund fehlender körperlicher und normativer Voraussetzungen keine autonomen Agenten sind, sondern als sprachliche Automaten fungieren, die dennoch durch ihre spezifische Verleiblichung und die menschlich-maschinelle Kopplung neue Formen von „mittendriger" (midtended) Handlungsfähigkeit ermöglichen.

Xabier E. Barandiaran, Lola S. Almendros2026-03-09🤖 cs.AI

Do Prevalent Bias Metrics Capture Allocational Harms from LLMs?

Die Studie zeigt, dass gängige Bias-Metriken für Large Language Models die tatsächlichen Verteilungsschäden bei der Ressourcenallokation nicht zuverlässig erfassen, da sie die Diskrepanz zwischen Vorhersagen und den daraus resultierenden Entscheidungen ignorieren.

Hannah Cyberey, Yangfeng Ji, David Evans2026-03-09💬 cs.CL

← Zurück Weiter →