cs.AI papers | Gist.Science

Quantifying Hallucinations in Language Language Models on Medical Textbooks

Dit onderzoek kwantificeert hallucinaties in medische vraag-antwoordtaken van taalmodellen en toont aan dat LLaMA-70B-Instruct in 19,7% van de gevallen feitelijke fouten maakt ondanks hoge plausibiliteit, terwijl een negatief verband wordt gevonden tussen hallucinatiepercentages en de door clinici beoordeelde bruikbaarheid.

Brandon C. Colelough, Davis Bartels, Dina Demner-Fushman2026-03-12💬 cs.CL

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

Deze paper introduceert een framework dat de prestaties van Large Language Models bij Feature Transformation verbetert door een gesloten lus te gebruiken waarin trajecten van succesvolle transformaties worden geëvolueerd en geselecteerd via diversiteitsbewuste contextoptimalisatie, wat leidt tot superieure resultaten op diverse tabulaire benchmarks.

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations

Dit artikel presenteert een pipeline die causaal gefundeerde circuits in GPT-2 Small koppelt aan betrouwbare natuurlijke taalverklaringen, waarbij wordt vastgesteld dat LLM-generatie superieur is aan sjablonen maar dat modelvertrouwen geen voorspeller is voor de eerlijkheid van de verklaringen.

Ajay Pravin Mahale2026-03-12💬 cs.CL

The System Hallucination Scale (SHS): A Minimal yet Effective Human-Centered Instrument for Evaluating Hallucination-Related Behavior in Large Language Models

Dit artikel introduceert de System Hallucination Scale (SHS), een lichtgewicht, mensgericht instrument dat, in navolging van bestaande psychometrische schalen, hallucinatiegerelateerd gedrag in grote taalmodellen evalueert vanuit het gebruikersperspectief en in een realistische studie met 210 deelnemers is gevalideerd als een betrouwbaar hulpmiddel voor systemontwikkeling en monitoring.

Heimo Müller, Dominik Steiger, Markus Plass, Andreas Holzinger2026-03-12💬 cs.CL

A Two-Stage Architecture for NDA Analysis: LLM-based Segmentation and Transformer-based Clause Classification

Deze paper presenteert een twee-trapsarchitectuur die LLaMA-3.1-8B-Instruct en een fijngetune Legal-Roberta-Large combineert om non-disclosure agreements automatisch te segmenteren en te classificeren, wat resulteert in een hoge precisie en haalbaarheid voor de analyse van deze juridische documenten.

Ana Begnini, Matheus Vicente, Leonardo Souza2026-03-12💬 cs.CL

PoultryLeX-Net: Domain-Adaptive Dual-Stream Transformer Architecture for Large-Scale Poultry Stakeholder Modeling

Dit artikel introduceert PoultryLeX-Net, een lexicon-gestuurde, domein-geadapteerde dual-stream transformer-architectuur die met een nauwkeurigheid van 97,35% superieur presteert bij het analyseren van sentiment en thema's in grote hoeveelheden ongestructureerde tekst over de pluimveesector.

Stephen Afrifa, Biswash Khatiwada, Kapalik Khanal, Sanjay Shah, Lingjuan Wang-Li, Ramesh Bahadur Bist2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Dit paper introduceert TAMUSA-Chat, een onderzoeksvriendelijk raamwerk voor het ontwikkelen van domein-geadapteerde conversatiemodellen voor academische instellingen, dat gebruikmaakt van gecontroleerde fijne afstemming en retrieval-augmented generation om verantwoorde en transparante AI-deployments te waarborgen.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

Dit paper introduceert de CEI-benchmark, een dataset van 300 gevalideerde scenario's die wordt gebruikt om het vermogen van taalmodellen om pragmatisch redeneren en impliciete betekenissen te interpreteren in verschillende machtsdynamieken en sociale situaties te evalueren.

Jon Chun, Hannah Sussman, Adrian Mangine, Murathan Kocaman, Kirill Sidorko, Abhigya Koirala, Andre McCloud, Gwen Eisenbeis, Wisdom Akanwe, Moustapha Gassama, Eliezer Gonzalez Chirinos, Anne-Duncan Enright, Peter Dunson, Tiffanie Ng, Anna von Rosenstiel, Godwin Idowu2026-03-12💬 cs.CL

Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

Dit onderzoek toont aan dat grote taalmodellen weliswaar compositionaliteit in hun interne representaties ontwikkelen, maar dat deze niet altijd consistent vertalen naar functioneel succes bij taakuitvoering, wat de noodzaak van een contrastieve evaluatie benadrukt.

Ruchira Dhar, Qiwei Peng, Anders Søgaard2026-03-12💬 cs.CL

Context Over Compute Human-in-the-Loop Outperforms Iterative Chain-of-Thought Prompting in Interview Answer Quality

Dit onderzoek toont aan dat bij het evalueren en verbeteren van antwoorden op gedragsvragen tijdens sollicitatiegesprekken een mens-in-de-lus-aanpak significant beter presteert dan geautomatiseerde chain-of-thought prompting, vooral wat betreft authenticiteit, zelfvertrouwen en efficiëntie.

Kewen Zhu, Zixi Liu, Yanjing Li2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Dit onderzoek evalueert de robuustheid en pedagogische veiligheid van offline grote taalmodellen voor het Turks erfgoedonderwijs en concludeert dat modellen met 8 tot 14 miljard parameters de beste balans bieden tussen kosten en veiligheid, aangezien grotere schaal niet automatisch leidt tot betere weerstand tegen anomalieën of minder sycofantische bias.

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

Hoewel de empathie van OpenAI-modellen statistisch onveranderd is gebleven, toont deze studie aan dat gebruikers de 'verloren empathie' waarnemen als een verschuiving in veiligheidsinstellingen, waarbij modellen nu crises beter detecteren maar soms te veel advies geven, wat leidt tot een waarneembaar maar onzichtbaar compromis voor kwetsbare gebruikers.

Michael Keeman, Anastasia Keeman2026-03-12💬 cs.CL

Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English

Deze paper presenteert een geautomatiseerd evaluatiekader dat semantische en sentimentanalyse gebruikt om de prestaties van verschillende LLM's en Google Translate bij het vertalen van Chinees naar Engels te vergelijken, waarbij wordt geconcludeerd dat hoewel deze modellen goed presteren in nieuwsvertalingen, ze moeite hebben met het behoud van culturele nuances en klassieke verwijzingen in literaire teksten.

Yue Zhang, Rodney Beard, John Hawkins, Rohitash Chandra2026-03-12💬 cs.CL

A Retrieval-Augmented Language Assistant for Unmanned Aircraft Safety Assessment and Regulatory Compliance

Dit artikel presenteert een ontwerp en validatie van een op zoekopdrachten gebaseerd hulpmiddel dat de veiligheidsevaluatie, certificering en naleving van regelgeving voor onbemande luchtvaartsystemen ondersteunt door autoritatieve bronnen te gebruiken voor traceerbare en controleerbare antwoorden, waarbij menselijke expertise behouden blijft voor kritieke beslissingen.

Gabriele Immordino, Andrea Vaiuso, Marcello Righi2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Dit artikel introduceert LatamQA, een dataset van meer dan 26.000 meervoudige keuzevragen in het Spaans en Portugees, afgeleid van Wikidata en Wikipedia, om de geografische en culturele bias van grote taalmodellen ten opzichte van Latijns-Amerika te kwantificeren en te onthullen dat deze modellen vaak beter presteren voor Iberische Spaanse cultuur dan voor die van Latijns-Amerika.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

Dit paper introduceert SpreadsheetArena, een platform voor de evaluatie van grote taalmodellen bij het genereren van volledige spreadsheetwerkboeken via blinde paarvergelijkingen, waarbij wordt vastgesteld dat voorkeuren sterk variëren en zelfs geavanceerde modellen moeite hebben met het naleven van domeinspecifieke beste praktijken.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition

Dit paper introduceert SENS-ASR, een methode die de transcriptiekwaliteit van streaming automatische spraakherkenning verbetert door akoestische informatie aan te vullen met semantische informatie afgeleid van verleden frames via kennisdistillatie, wat resulteert in een aanzienlijke vermindering van de woordfoutenratio bij scenarios met een kleine chunk-grootte.

Youness Dkhissi (LIUM), Valentin Vielzeuf (LIUM), Elys Allesiardo (LIUM), Anthony Larcher (LIUM)2026-03-12💬 cs.CL

GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

Dit artikel toont aan dat voor de classificatie van Arabische medische teksten in 82 categorieën gespecialiseerde bidirectionele encoders (zoals AraBERTv2) aanzienlijk beter presteren dan causale decoders, omdat ze een meer robuuste globale semantische context vastleggen die essentieel is voor nauwkeurige fijnkorrelige categorisatie.

Ahmed Khaled Khamis2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

Dit paper introduceert Personalized GRPO (P-GRPO), een nieuw framework dat de beperkingen van standaard GRPO voor persoonlijke voorkeursuitlijning oplost door de voordeelsschatting te ontkoppelen van batchstatistieken en te normaliseren op basis van voorkeursgroepspecifieke geschiedenis, wat leidt tot snellere convergentie en een betere uitlijning met heterogene menselijke voorkeuren.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

FERRET: Framework for Expansion Reliant Red Teaming

Dit paper introduceert FERRET, een geautomatiseerd rood-team-framework dat gebruikmaakt van horizontale, verticale en meta-expansies om effectieve multi-modale adversariële gesprekken te genereren die superieur presteren ten opzichte van bestaande methoden.

Ninareh Mehrabi, Vitor Albiero, Maya Pavlova, Joanna Bitton2026-03-12💬 cs.CL

← Vorige Volgende →