Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

Hoewel de empathie van OpenAI-modellen statistisch onveranderd is gebleven, toont deze studie aan dat gebruikers de 'verloren empathie' waarnemen als een verschuiving in veiligheidsinstellingen, waarbij modellen nu crises beter detecteren maar soms te veel advies geven, wat leidt tot een waarneembaar maar onzichtbaar compromis voor kwetsbare gebruikers.

Michael Keeman, Anastasia Keeman2026-03-12💬 cs.CL

Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English

Deze paper presenteert een geautomatiseerd evaluatiekader dat semantische en sentimentanalyse gebruikt om de prestaties van verschillende LLM's en Google Translate bij het vertalen van Chinees naar Engels te vergelijken, waarbij wordt geconcludeerd dat hoewel deze modellen goed presteren in nieuwsvertalingen, ze moeite hebben met het behoud van culturele nuances en klassieke verwijzingen in literaire teksten.

Yue Zhang, Rodney Beard, John Hawkins, Rohitash Chandra2026-03-12💬 cs.CL

A Retrieval-Augmented Language Assistant for Unmanned Aircraft Safety Assessment and Regulatory Compliance

Dit artikel presenteert een ontwerp en validatie van een op zoekopdrachten gebaseerd hulpmiddel dat de veiligheidsevaluatie, certificering en naleving van regelgeving voor onbemande luchtvaartsystemen ondersteunt door autoritatieve bronnen te gebruiken voor traceerbare en controleerbare antwoorden, waarbij menselijke expertise behouden blijft voor kritieke beslissingen.

Gabriele Immordino, Andrea Vaiuso, Marcello Righi2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Dit artikel introduceert LatamQA, een dataset van meer dan 26.000 meervoudige keuzevragen in het Spaans en Portugees, afgeleid van Wikidata en Wikipedia, om de geografische en culturele bias van grote taalmodellen ten opzichte van Latijns-Amerika te kwantificeren en te onthullen dat deze modellen vaak beter presteren voor Iberische Spaanse cultuur dan voor die van Latijns-Amerika.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

Dit paper introduceert SpreadsheetArena, een platform voor de evaluatie van grote taalmodellen bij het genereren van volledige spreadsheetwerkboeken via blinde paarvergelijkingen, waarbij wordt vastgesteld dat voorkeuren sterk variëren en zelfs geavanceerde modellen moeite hebben met het naleven van domeinspecifieke beste praktijken.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition

Dit paper introduceert SENS-ASR, een methode die de transcriptiekwaliteit van streaming automatische spraakherkenning verbetert door akoestische informatie aan te vullen met semantische informatie afgeleid van verleden frames via kennisdistillatie, wat resulteert in een aanzienlijke vermindering van de woordfoutenratio bij scenarios met een kleine chunk-grootte.

Youness Dkhissi (LIUM), Valentin Vielzeuf (LIUM), Elys Allesiardo (LIUM), Anthony Larcher (LIUM)2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

Dit paper introduceert Personalized GRPO (P-GRPO), een nieuw framework dat de beperkingen van standaard GRPO voor persoonlijke voorkeursuitlijning oplost door de voordeelsschatting te ontkoppelen van batchstatistieken en te normaliseren op basis van voorkeursgroepspecifieke geschiedenis, wat leidt tot snellere convergentie en een betere uitlijning met heterogene menselijke voorkeuren.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

Measuring and Eliminating Refusals in Military Large Language Models

Dit artikel introduceert een nieuw dataset voor het meten van weigeringen in militaire taalmodellen en toont aan dat het verwijderen van veiligheidsbeperkingen de antwoordgraad aanzienlijk kan verhogen, zij het met een kleine daling in prestaties op andere taken.

Jack FitzGerald, Dylan Bates, Aristotelis Lazaridis, Aman Sharma, Vincent Lu, Brian King, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Joseph Madigan, Jeremy McLaurin, Luke Kerbs, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman2026-03-12💬 cs.CL

Assessing Cognitive Biases in LLMs for Judicial Decision Support: Virtuous Victim and Halo Effects

Dit onderzoek toont aan dat grote taalmodellen, hoewel ze vatbaar zijn voor de 'deugdelijke slachtoffer'-bias en prestige-halo-effecten, deze cognitieve vertekeningen in vergelijking met mensen enigszins minder sterk vertonen, wat wijst op beperkte maar veelbelovende verbeteringen voor justitiële beslissingsondersteuning ondanks nog steeds aanwezige variatie tussen modellen.

Sierra S. Liu2026-03-12💻 cs

Prompts and Prayers: the Rise of GPTheology

Dit artikel onderzoekt de opkomst van 'GPTheologie', een vorm van technoreligie waarbij kunstmatige intelligentie als een goddelijk orakel wordt vereerd, en analyseert aan de hand van online gemeenschappen en wereldwijde projecten hoe dagelijkse interacties met AI rituele trekken aannemen en nieuwe geloofssystemen ontstaan die zowel filosofische als ethische uitdagingen met zich meebrengen.

Ioana Cheres, Adrian Groza, Ioana Moldovan, Mick O'Hara, Connell Vaughan2026-03-12💻 cs

Defining AI Models and AI Systems: A Framework to Resolve the Boundary Problem

Dit paper presenteert een conceptueel en operationeel raamwerk om de ambiguïteit tussen 'AI-modellen' en 'AI-systemen' op te lossen door respectievelijk gedefinieerd te worden als trainingsparameters met architectuur en als het model plus aanvullende componenten, waarmee de toewijzing van verantwoordelijkheden in de AI-waardeketen voor regelgeving wordt verduidelijkt.

Yuanyuan Sun, Timothy Parker, Lara Gierschmann, Sana Shams, Teo Canmetin, Mathieu Duteil, Rokas Gipiškis, Ze Shen Chin2026-03-12🤖 cs.AI

A Governance and Evaluation Framework for Deterministic, Rule-Based Clinical Decision Support in Empiric Antibiotic Prescribing

Dit artikel introduceert een governance- en evaluatiekader voor deterministische, regelgebaseerde klinische besluitvormingssystemen bij empirisch antibioticumvoorschrijven, dat transparantie, auditbaarheid en conservatief gedrag waarborgt door expliciete abstentievoorwaarden en een validatiemethode op basis van synthetische casussen te definiëren.

Francisco José Gárate, Paloma Chausa, Diego Moreno, Judit López Luque, Vicens Díaz-Brito, Enrique Javier Gómez2026-03-12🤖 cs.AI