cs.AI papers | Gist.Science

PoultryLeX-Net: Domain-Adaptive Dual-Stream Transformer Architecture for Large-Scale Poultry Stakeholder Modeling

Dit artikel introduceert PoultryLeX-Net, een lexicon-gestuurde, domein-geadapteerde dual-stream transformer-architectuur die met een nauwkeurigheid van 97,35% superieur presteert bij het analyseren van sentiment en thema's in grote hoeveelheden ongestructureerde tekst over de pluimveesector.

Stephen Afrifa, Biswash Khatiwada, Kapalik Khanal, Sanjay Shah, Lingjuan Wang-Li, Ramesh Bahadur Bist2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Dit paper introduceert TAMUSA-Chat, een onderzoeksvriendelijk raamwerk voor het ontwikkelen van domein-geadapteerde conversatiemodellen voor academische instellingen, dat gebruikmaakt van gecontroleerde fijne afstemming en retrieval-augmented generation om verantwoorde en transparante AI-deployments te waarborgen.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models

Dit paper introduceert de CEI-benchmark, een dataset van 300 gevalideerde scenario's die wordt gebruikt om het vermogen van taalmodellen om pragmatisch redeneren en impliciete betekenissen te interpreteren in verschillende machtsdynamieken en sociale situaties te evalueren.

Jon Chun, Hannah Sussman, Adrian Mangine, Murathan Kocaman, Kirill Sidorko, Abhigya Koirala, Andre McCloud, Gwen Eisenbeis, Wisdom Akanwe, Moustapha Gassama, Eliezer Gonzalez Chirinos, Anne-Duncan Enright, Peter Dunson, Tiffanie Ng, Anna von Rosenstiel, Godwin Idowu2026-03-12💬 cs.CL

Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

Dit onderzoek toont aan dat grote taalmodellen weliswaar compositionaliteit in hun interne representaties ontwikkelen, maar dat deze niet altijd consistent vertalen naar functioneel succes bij taakuitvoering, wat de noodzaak van een contrastieve evaluatie benadrukt.

Ruchira Dhar, Qiwei Peng, Anders Søgaard2026-03-12💬 cs.CL

Context Over Compute Human-in-the-Loop Outperforms Iterative Chain-of-Thought Prompting in Interview Answer Quality

Dit onderzoek toont aan dat bij het evalueren en verbeteren van antwoorden op gedragsvragen tijdens sollicitatiegesprekken een mens-in-de-lus-aanpak significant beter presteert dan geautomatiseerde chain-of-thought prompting, vooral wat betreft authenticiteit, zelfvertrouwen en efficiëntie.

Kewen Zhu, Zixi Liu, Yanjing Li2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Dit onderzoek evalueert de robuustheid en pedagogische veiligheid van offline grote taalmodellen voor het Turks erfgoedonderwijs en concludeert dat modellen met 8 tot 14 miljard parameters de beste balans bieden tussen kosten en veiligheid, aangezien grotere schaal niet automatisch leidt tot betere weerstand tegen anomalieën of minder sycofantische bias.

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

Hoewel de empathie van OpenAI-modellen statistisch onveranderd is gebleven, toont deze studie aan dat gebruikers de 'verloren empathie' waarnemen als een verschuiving in veiligheidsinstellingen, waarbij modellen nu crises beter detecteren maar soms te veel advies geven, wat leidt tot een waarneembaar maar onzichtbaar compromis voor kwetsbare gebruikers.

Michael Keeman, Anastasia Keeman2026-03-12💬 cs.CL

Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English

Deze paper presenteert een geautomatiseerd evaluatiekader dat semantische en sentimentanalyse gebruikt om de prestaties van verschillende LLM's en Google Translate bij het vertalen van Chinees naar Engels te vergelijken, waarbij wordt geconcludeerd dat hoewel deze modellen goed presteren in nieuwsvertalingen, ze moeite hebben met het behoud van culturele nuances en klassieke verwijzingen in literaire teksten.

Yue Zhang, Rodney Beard, John Hawkins, Rohitash Chandra2026-03-12💬 cs.CL

A Retrieval-Augmented Language Assistant for Unmanned Aircraft Safety Assessment and Regulatory Compliance

Dit artikel presenteert een ontwerp en validatie van een op zoekopdrachten gebaseerd hulpmiddel dat de veiligheidsevaluatie, certificering en naleving van regelgeving voor onbemande luchtvaartsystemen ondersteunt door autoritatieve bronnen te gebruiken voor traceerbare en controleerbare antwoorden, waarbij menselijke expertise behouden blijft voor kritieke beslissingen.

Gabriele Immordino, Andrea Vaiuso, Marcello Righi2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Dit artikel introduceert LatamQA, een dataset van meer dan 26.000 meervoudige keuzevragen in het Spaans en Portugees, afgeleid van Wikidata en Wikipedia, om de geografische en culturele bias van grote taalmodellen ten opzichte van Latijns-Amerika te kwantificeren en te onthullen dat deze modellen vaak beter presteren voor Iberische Spaanse cultuur dan voor die van Latijns-Amerika.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

Dit paper introduceert SpreadsheetArena, een platform voor de evaluatie van grote taalmodellen bij het genereren van volledige spreadsheetwerkboeken via blinde paarvergelijkingen, waarbij wordt vastgesteld dat voorkeuren sterk variëren en zelfs geavanceerde modellen moeite hebben met het naleven van domeinspecifieke beste praktijken.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition

Dit paper introduceert SENS-ASR, een methode die de transcriptiekwaliteit van streaming automatische spraakherkenning verbetert door akoestische informatie aan te vullen met semantische informatie afgeleid van verleden frames via kennisdistillatie, wat resulteert in een aanzienlijke vermindering van de woordfoutenratio bij scenarios met een kleine chunk-grootte.

Youness Dkhissi (LIUM), Valentin Vielzeuf (LIUM), Elys Allesiardo (LIUM), Anthony Larcher (LIUM)2026-03-12💬 cs.CL

GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

Dit artikel toont aan dat voor de classificatie van Arabische medische teksten in 82 categorieën gespecialiseerde bidirectionele encoders (zoals AraBERTv2) aanzienlijk beter presteren dan causale decoders, omdat ze een meer robuuste globale semantische context vastleggen die essentieel is voor nauwkeurige fijnkorrelige categorisatie.

Ahmed Khaled Khamis2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

Dit paper introduceert Personalized GRPO (P-GRPO), een nieuw framework dat de beperkingen van standaard GRPO voor persoonlijke voorkeursuitlijning oplost door de voordeelsschatting te ontkoppelen van batchstatistieken en te normaliseren op basis van voorkeursgroepspecifieke geschiedenis, wat leidt tot snellere convergentie en een betere uitlijning met heterogene menselijke voorkeuren.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

FERRET: Framework for Expansion Reliant Red Teaming

Dit paper introduceert FERRET, een geautomatiseerd rood-team-framework dat gebruikmaakt van horizontale, verticale en meta-expansies om effectieve multi-modale adversariële gesprekken te genereren die superieur presteren ten opzichte van bestaande methoden.

Ninareh Mehrabi, Vitor Albiero, Maya Pavlova, Joanna Bitton2026-03-12💬 cs.CL

Measuring and Eliminating Refusals in Military Large Language Models

Dit artikel introduceert een nieuw dataset voor het meten van weigeringen in militaire taalmodellen en toont aan dat het verwijderen van veiligheidsbeperkingen de antwoordgraad aanzienlijk kan verhogen, zij het met een kleine daling in prestaties op andere taken.

Jack FitzGerald, Dylan Bates, Aristotelis Lazaridis, Aman Sharma, Vincent Lu, Brian King, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Joseph Madigan, Jeremy McLaurin, Luke Kerbs, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman2026-03-12💬 cs.CL

Assessing Cognitive Biases in LLMs for Judicial Decision Support: Virtuous Victim and Halo Effects

Dit onderzoek toont aan dat grote taalmodellen, hoewel ze vatbaar zijn voor de 'deugdelijke slachtoffer'-bias en prestige-halo-effecten, deze cognitieve vertekeningen in vergelijking met mensen enigszins minder sterk vertonen, wat wijst op beperkte maar veelbelovende verbeteringen voor justitiële beslissingsondersteuning ondanks nog steeds aanwezige variatie tussen modellen.

Sierra S. Liu2026-03-12💻 cs

DeliberationBench: A Normative Benchmark for the Influence of Large Language Models on Users' Views

Dit paper introduceert DeliberationBench, een normatieve benchmark die aantoont dat grote taalmodellen bij 4.088 deelnemers aanzienlijke, democratisch wenselijke opiniewijzigingen teweegbrengen die overeenkomen met de uitkomsten van deliberatieve peilingen.

Luke Hewitt, Maximilian Kroner Dale, Paul de Font-Reaulx2026-03-12💻 cs

Prompts and Prayers: the Rise of GPTheology

Dit artikel onderzoekt de opkomst van 'GPTheologie', een vorm van technoreligie waarbij kunstmatige intelligentie als een goddelijk orakel wordt vereerd, en analyseert aan de hand van online gemeenschappen en wereldwijde projecten hoe dagelijkse interacties met AI rituele trekken aannemen en nieuwe geloofssystemen ontstaan die zowel filosofische als ethische uitdagingen met zich meebrengen.

Ioana Cheres, Adrian Groza, Ioana Moldovan, Mick O'Hara, Connell Vaughan2026-03-12💻 cs

Defining AI Models and AI Systems: A Framework to Resolve the Boundary Problem

Dit paper presenteert een conceptueel en operationeel raamwerk om de ambiguïteit tussen 'AI-modellen' en 'AI-systemen' op te lossen door respectievelijk gedefinieerd te worden als trainingsparameters met architectuur en als het model plus aanvullende componenten, waarmee de toewijzing van verantwoordelijkheden in de AI-waardeketen voor regelgeving wordt verduidelijkt.

Yuanyuan Sun, Timothy Parker, Lara Gierschmann, Sana Shams, Teo Canmetin, Mathieu Duteil, Rokas Gipiškis, Ze Shen Chin2026-03-12🤖 cs.AI

← Vorige Volgende →