Beyond the Prompt in Large Language Models: Comprehension, In-Context Learning, and Chain-of-Thought

Deze studie biedt theoretische inzichten in de werking van grote taalmodellen door aan te tonen dat promptcomprehensie, in-context learning en chain-of-thought redenering gebaseerd zijn op het nauwkeurig infereren van overgangskansen, het verminderen van ambiguïteit en het activeren van taakdecompositie via autoregressieve processen.

Yuling Jiao, Yanming Lai, Huazhen Lin, Wensen Ma, Houduo Qi, Defeng Sun2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Dit artikel introduceert LatamQA, een dataset van meer dan 26.000 meervoudige keuzevragen in het Spaans en Portugees, afgeleid van Wikidata en Wikipedia, om de geografische en culturele bias van grote taalmodellen ten opzichte van Latijns-Amerika te kwantificeren en te onthullen dat deze modellen vaak beter presteren voor Iberische Spaanse cultuur dan voor die van Latijns-Amerika.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

Dit paper introduceert SpreadsheetArena, een platform voor de evaluatie van grote taalmodellen bij het genereren van volledige spreadsheetwerkboeken via blinde paarvergelijkingen, waarbij wordt vastgesteld dat voorkeuren sterk variëren en zelfs geavanceerde modellen moeite hebben met het naleven van domeinspecifieke beste praktijken.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

GATech at AbjadGenEval Shared Task: Multilingual Embeddings for Arabic Machine-Generated Text Classification

In deze paper presenteren de auteurs van GATech hun aanpak voor de AbjadGenEval-taak, waarbij ze vaststellen dat een eenvoudig gemiddelde pooling-methode op een fine-getuned multilinguale E5-large-encoder de beste resultaten boekt voor het detecteren van AI-gegenereerde Arabische tekst, mede door het waarneembare verschil in tekstlengte tussen menselijke en machine-gegenereerde inhoud.

Ahmed Khaled Khamis2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

Dit paper introduceert Personalized GRPO (P-GRPO), een nieuw framework dat de beperkingen van standaard GRPO voor persoonlijke voorkeursuitlijning oplost door de voordeelsschatting te ontkoppelen van batchstatistieken en te normaliseren op basis van voorkeursgroepspecifieke geschiedenis, wat leidt tot snellere convergentie en een betere uitlijning met heterogene menselijke voorkeuren.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

Defining AI Models and AI Systems: A Framework to Resolve the Boundary Problem

Dit paper presenteert een conceptueel en operationeel raamwerk om de ambiguïteit tussen 'AI-modellen' en 'AI-systemen' op te lossen door respectievelijk gedefinieerd te worden als trainingsparameters met architectuur en als het model plus aanvullende componenten, waarmee de toewijzing van verantwoordelijkheden in de AI-waardeketen voor regelgeving wordt verduidelijkt.

Yuanyuan Sun, Timothy Parker, Lara Gierschmann, Sana Shams, Teo Canmetin, Mathieu Duteil, Rokas Gipiškis, Ze Shen Chin2026-03-12🤖 cs.AI

LWM-Temporal: Sparse Spatio-Temporal Attention for Wireless Channel Representation Learning

LWM-Temporal is een nieuw, taak-onafhankelijk fundamenteel model voor draadloze kanalen dat gebruikmaakt van een propagerings-gealigneerde, spaarzame spatio-temporele attentie-mechanisme en fysica-gedreven zelftoezicht om universele, geometrie-bewuste kanaalrepresentaties te leren die overleggen op diverse downstream-taken en prestaties verbeteren, zelfs bij beperkte data.

Sadjad Alikhani, Akshay Malhotra, Shahab Hamidi-Rad, Ahmed Alkhateeb2026-03-12🤖 cs.LG

Evaluating Generalization Mechanisms in Autonomous Cyber Attack Agents

Dit artikel evalueert hoe goed autonome cyberaanval-agenten generaliseren bij onverwachte IP-adreswijzigingen en concludeert dat hoewel prompt-gedreven LLM-agenten de beste prestaties leveren op onbekende scenario's, dit ten koste gaat van transparantie en rekenkracht, terwijl andere aanpassingsmethoden significant prestatieverlies vertonen.

Ondřej Lukáš, Jihoon Shin, Emilia Rivas, Diego Forni, Maria Rigaki, Carlos Catania, Aritran Piplai, Christopher Kiekintveld, Sebastian Garcia2026-03-12💻 cs

Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety

Deze studie toont aan dat de manier waarop veiligheidsbenchmarks worden opgesteld (met name het gebruik van open-ended versus meerkeuzevragen) een grotere invloed heeft op de gemeten veiligheid van taalmodellen dan de specifieke architectuur van de scaffolding, en dat veiligheidsrangschikkingen sterk variëren afhankelijk van de gebruikte benchmark, waardoor universele claims over modelveiligheid onbetrouwbaar zijn.

David Gringras2026-03-12🤖 cs.AI

Gated Adaptation for Continual Learning in Human Activity Recognition

Dit artikel introduceert een parameter-efficiënt continu leerframework voor menselijke activiteitsherkenning dat door middel van kanaal-gewijze gatenmodulatie van bevroren pretrained representaties de balans tussen plasticiteit en stabiliteit verbetert, waardoor het vergeten van eerdere taken aanzienlijk wordt verminderd zonder dat er replay-buffers nodig zijn.

Reza Rahimi Azghan, Gautham Krishna Gudur, Mohit Malu, Edison Thomaz, Giulia Pedrielli, Pavan Turaga, Hassan Ghasemzadeh2026-03-12🤖 cs.LG