cs.AI papers | Gist.Science

Empathy Is Not What Changed: Clinical Assessment of Psychological Safety Across GPT Model Generations

Hoewel de empathie van OpenAI-modellen statistisch onveranderd is gebleven, toont deze studie aan dat gebruikers de 'verloren empathie' waarnemen als een verschuiving in veiligheidsinstellingen, waarbij modellen nu crises beter detecteren maar soms te veel advies geven, wat leidt tot een waarneembaar maar onzichtbaar compromis voor kwetsbare gebruikers.

Michael Keeman, Anastasia Keeman2026-03-12💬 cs.CL

Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English

Deze paper presenteert een geautomatiseerd evaluatiekader dat semantische en sentimentanalyse gebruikt om de prestaties van verschillende LLM's en Google Translate bij het vertalen van Chinees naar Engels te vergelijken, waarbij wordt geconcludeerd dat hoewel deze modellen goed presteren in nieuwsvertalingen, ze moeite hebben met het behoud van culturele nuances en klassieke verwijzingen in literaire teksten.

Yue Zhang, Rodney Beard, John Hawkins, Rohitash Chandra2026-03-12💬 cs.CL

A Retrieval-Augmented Language Assistant for Unmanned Aircraft Safety Assessment and Regulatory Compliance

Dit artikel presenteert een ontwerp en validatie van een op zoekopdrachten gebaseerd hulpmiddel dat de veiligheidsevaluatie, certificering en naleving van regelgeving voor onbemande luchtvaartsystemen ondersteunt door autoritatieve bronnen te gebruiken voor traceerbare en controleerbare antwoorden, waarbij menselijke expertise behouden blijft voor kritieke beslissingen.

Gabriele Immordino, Andrea Vaiuso, Marcello Righi2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Dit artikel introduceert LatamQA, een dataset van meer dan 26.000 meervoudige keuzevragen in het Spaans en Portugees, afgeleid van Wikidata en Wikipedia, om de geografische en culturele bias van grote taalmodellen ten opzichte van Latijns-Amerika te kwantificeren en te onthullen dat deze modellen vaak beter presteren voor Iberische Spaanse cultuur dan voor die van Latijns-Amerika.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

Dit paper introduceert SpreadsheetArena, een platform voor de evaluatie van grote taalmodellen bij het genereren van volledige spreadsheetwerkboeken via blinde paarvergelijkingen, waarbij wordt vastgesteld dat voorkeuren sterk variëren en zelfs geavanceerde modellen moeite hebben met het naleven van domeinspecifieke beste praktijken.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

SENS-ASR: Semantic Embedding injection in Neural-transducer for Streaming Automatic Speech Recognition

Dit paper introduceert SENS-ASR, een methode die de transcriptiekwaliteit van streaming automatische spraakherkenning verbetert door akoestische informatie aan te vullen met semantische informatie afgeleid van verleden frames via kennisdistillatie, wat resulteert in een aanzienlijke vermindering van de woordfoutenratio bij scenarios met een kleine chunk-grootte.

Youness Dkhissi (LIUM), Valentin Vielzeuf (LIUM), Elys Allesiardo (LIUM), Anthony Larcher (LIUM)2026-03-12💬 cs.CL

GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

Dit artikel toont aan dat voor de classificatie van Arabische medische teksten in 82 categorieën gespecialiseerde bidirectionele encoders (zoals AraBERTv2) aanzienlijk beter presteren dan causale decoders, omdat ze een meer robuuste globale semantische context vastleggen die essentieel is voor nauwkeurige fijnkorrelige categorisatie.

Ahmed Khaled Khamis2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

Dit paper introduceert Personalized GRPO (P-GRPO), een nieuw framework dat de beperkingen van standaard GRPO voor persoonlijke voorkeursuitlijning oplost door de voordeelsschatting te ontkoppelen van batchstatistieken en te normaliseren op basis van voorkeursgroepspecifieke geschiedenis, wat leidt tot snellere convergentie en een betere uitlijning met heterogene menselijke voorkeuren.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

FERRET: Framework for Expansion Reliant Red Teaming

Dit paper introduceert FERRET, een geautomatiseerd rood-team-framework dat gebruikmaakt van horizontale, verticale en meta-expansies om effectieve multi-modale adversariële gesprekken te genereren die superieur presteren ten opzichte van bestaande methoden.

Ninareh Mehrabi, Vitor Albiero, Maya Pavlova, Joanna Bitton2026-03-12💬 cs.CL

Measuring and Eliminating Refusals in Military Large Language Models

Dit artikel introduceert een nieuw dataset voor het meten van weigeringen in militaire taalmodellen en toont aan dat het verwijderen van veiligheidsbeperkingen de antwoordgraad aanzienlijk kan verhogen, zij het met een kleine daling in prestaties op andere taken.

Jack FitzGerald, Dylan Bates, Aristotelis Lazaridis, Aman Sharma, Vincent Lu, Brian King, Yousif Azami, Sean Bailey, Jeremy Cao, Peter Damianov, Kevin de Haan, Joseph Madigan, Jeremy McLaurin, Luke Kerbs, Jonathan Tainer, Dave Anderson, Jonathan Beck, Jamie Cuticello, Colton Malkerson, Tyler Saltsman2026-03-12💬 cs.CL

Assessing Cognitive Biases in LLMs for Judicial Decision Support: Virtuous Victim and Halo Effects

Dit onderzoek toont aan dat grote taalmodellen, hoewel ze vatbaar zijn voor de 'deugdelijke slachtoffer'-bias en prestige-halo-effecten, deze cognitieve vertekeningen in vergelijking met mensen enigszins minder sterk vertonen, wat wijst op beperkte maar veelbelovende verbeteringen voor justitiële beslissingsondersteuning ondanks nog steeds aanwezige variatie tussen modellen.

Sierra S. Liu2026-03-12💻 cs

DeliberationBench: A Normative Benchmark for the Influence of Large Language Models on Users' Views

Dit paper introduceert DeliberationBench, een normatieve benchmark die aantoont dat grote taalmodellen bij 4.088 deelnemers aanzienlijke, democratisch wenselijke opiniewijzigingen teweegbrengen die overeenkomen met de uitkomsten van deliberatieve peilingen.

Luke Hewitt, Maximilian Kroner Dale, Paul de Font-Reaulx2026-03-12💻 cs

Prompts and Prayers: the Rise of GPTheology

Dit artikel onderzoekt de opkomst van 'GPTheologie', een vorm van technoreligie waarbij kunstmatige intelligentie als een goddelijk orakel wordt vereerd, en analyseert aan de hand van online gemeenschappen en wereldwijde projecten hoe dagelijkse interacties met AI rituele trekken aannemen en nieuwe geloofssystemen ontstaan die zowel filosofische als ethische uitdagingen met zich meebrengen.

Ioana Cheres, Adrian Groza, Ioana Moldovan, Mick O'Hara, Connell Vaughan2026-03-12💻 cs

Defining AI Models and AI Systems: A Framework to Resolve the Boundary Problem

Dit paper presenteert een conceptueel en operationeel raamwerk om de ambiguïteit tussen 'AI-modellen' en 'AI-systemen' op te lossen door respectievelijk gedefinieerd te worden als trainingsparameters met architectuur en als het model plus aanvullende componenten, waarmee de toewijzing van verantwoordelijkheden in de AI-waardeketen voor regelgeving wordt verduidelijkt.

Yuanyuan Sun, Timothy Parker, Lara Gierschmann, Sana Shams, Teo Canmetin, Mathieu Duteil, Rokas Gipiškis, Ze Shen Chin2026-03-12🤖 cs.AI

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

RedFuser is een automatisch framework dat cascaderende reductie-operaties in AI-modellen efficiënt samenvoegt tot een enkele lus, waardoor een snelheidsverhoging van 2 tot 5 keer wordt bereikt ten opzichte van bestaande compilers.

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang Liu2026-03-12🤖 cs.AI

A Governance and Evaluation Framework for Deterministic, Rule-Based Clinical Decision Support in Empiric Antibiotic Prescribing

Dit artikel introduceert een governance- en evaluatiekader voor deterministische, regelgebaseerde klinische besluitvormingssystemen bij empirisch antibioticumvoorschrijven, dat transparantie, auditbaarheid en conservatief gedrag waarborgt door expliciete abstentievoorwaarden en een validatiemethode op basis van synthetische casussen te definiëren.

Francisco José Gárate, Paloma Chausa, Diego Moreno, Judit López Luque, Vicens Díaz-Brito, Enrique Javier Gómez2026-03-12🤖 cs.AI

How to Count AIs: Individuation and Liability for AI Agents

Dit artikel analyseert de juridische uitdagingen bij het identificeren van AI-agenten en stelt de 'Algoritmische Corporatie' (A-corp) voor als een juridisch fictief entiteit dat zowel de aansprakelijkheid van menselijke eigenaren als de autonome identiteit van AI-systemen oplost door deze te structureren als zelforganiserende, doelgerichte eenheden.

Yonathan Arbel, Peter Salib, Simon Goldstein2026-03-12🤖 cs.AI

The DMA Streaming Framework: Kernel-Level Buffer Orchestration for High-Performance AI Data Paths

Dit paper introduceert dmaplane, een Linux-kernmodule die buffer-orkestratie voor AI-datastromen expliciet maakt via een stabiele kernel-gebruikersinterface, en daarmee functies zoals NUMA-bewuste toewijzing, DMA-bufferbeheer en RDMA-gebaseerde gedistribueerde inferentie mogelijk maakt.

Marco Graziano2026-03-12🤖 cs.AI

Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study

Deze studie presenteert een uitgebreide benchmark van LLM-inferentie op AMD Instinct MI325X-GPU's, waarbij wordt aangetoond dat architectuurbewuste optimalisaties, zoals het selectief toepassen van de AITER-runtime en het aanpassen van blokgroottes, essentieel zijn voor het maximaliseren van de doorvoer en stabiliteit van diverse modelarchitecturen.

Athos Georgiou2026-03-12🤖 cs.AI

HTM-EAR: Importance-Preserving Tiered Memory with Hybrid Routing under Saturation

Dit paper introduceert HTM-EAR, een hiërarchisch tiered memory-systeem dat HNSW-based werkgeheugen combineert met archiefopslag en hybride routing om essentiële informatie te behouden en verouderde data te vergeten onder extreme contextbeperkingen, wat leidt tot een significante verbetering in zoekprecisie vergeleken met traditionele LRU-mechanismen.

Shubham Kumar Singh2026-03-12🤖 cs.AI

← Vorige Volgende →