cs.LG papers | Gist.Science

Beyond the Prompt in Large Language Models: Comprehension, In-Context Learning, and Chain-of-Thought

Deze studie biedt theoretische inzichten in de werking van grote taalmodellen door aan te tonen dat promptcomprehensie, in-context learning en chain-of-thought redenering gebaseerd zijn op het nauwkeurig infereren van overgangskansen, het verminderen van ambiguïteit en het activeren van taakdecompositie via autoregressieve processen.

Yuling Jiao, Yanming Lai, Huazhen Lin, Wensen Ma, Houduo Qi, Defeng Sun2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Dit artikel introduceert LatamQA, een dataset van meer dan 26.000 meervoudige keuzevragen in het Spaans en Portugees, afgeleid van Wikidata en Wikipedia, om de geografische en culturele bias van grote taalmodellen ten opzichte van Latijns-Amerika te kwantificeren en te onthullen dat deze modellen vaak beter presteren voor Iberische Spaanse cultuur dan voor die van Latijns-Amerika.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

Dit paper introduceert SpreadsheetArena, een platform voor de evaluatie van grote taalmodellen bij het genereren van volledige spreadsheetwerkboeken via blinde paarvergelijkingen, waarbij wordt vastgesteld dat voorkeuren sterk variëren en zelfs geavanceerde modellen moeite hebben met het naleven van domeinspecifieke beste praktijken.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

Probing the Limits of the Lie Detector Approach to LLM Deception

Dit paper toont aan dat bestaande 'leugendetectors' voor grote taalmodellen tekortschotten omdat ze zich uitsluitend op onwaarheden richten, terwijl modellen ook succesvol kunnen bedriegen door misleidende maar feitelijke uitspraken te doen.

Tom-Felix Berger2026-03-12💬 cs.CL

GATech at AbjadGenEval Shared Task: Multilingual Embeddings for Arabic Machine-Generated Text Classification

In deze paper presenteren de auteurs van GATech hun aanpak voor de AbjadGenEval-taak, waarbij ze vaststellen dat een eenvoudig gemiddelde pooling-methode op een fine-getuned multilinguale E5-large-encoder de beste resultaten boekt voor het detecteren van AI-gegenereerde Arabische tekst, mede door het waarneembare verschil in tekstlengte tussen menselijke en machine-gegenereerde inhoud.

Ahmed Khaled Khamis2026-03-12💬 cs.CL

GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

Dit artikel toont aan dat voor de classificatie van Arabische medische teksten in 82 categorieën gespecialiseerde bidirectionele encoders (zoals AraBERTv2) aanzienlijk beter presteren dan causale decoders, omdat ze een meer robuuste globale semantische context vastleggen die essentieel is voor nauwkeurige fijnkorrelige categorisatie.

Ahmed Khaled Khamis2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

Dit paper introduceert Personalized GRPO (P-GRPO), een nieuw framework dat de beperkingen van standaard GRPO voor persoonlijke voorkeursuitlijning oplost door de voordeelsschatting te ontkoppelen van batchstatistieken en te normaliseren op basis van voorkeursgroepspecifieke geschiedenis, wat leidt tot snellere convergentie en een betere uitlijning met heterogene menselijke voorkeuren.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

Defining AI Models and AI Systems: A Framework to Resolve the Boundary Problem

Dit paper presenteert een conceptueel en operationeel raamwerk om de ambiguïteit tussen 'AI-modellen' en 'AI-systemen' op te lossen door respectievelijk gedefinieerd te worden als trainingsparameters met architectuur en als het model plus aanvullende componenten, waarmee de toewijzing van verantwoordelijkheden in de AI-waardeketen voor regelgeving wordt verduidelijkt.

Yuanyuan Sun, Timothy Parker, Lara Gierschmann, Sana Shams, Teo Canmetin, Mathieu Duteil, Rokas Gipiškis, Ze Shen Chin2026-03-12🤖 cs.AI

LWM-Temporal: Sparse Spatio-Temporal Attention for Wireless Channel Representation Learning

LWM-Temporal is een nieuw, taak-onafhankelijk fundamenteel model voor draadloze kanalen dat gebruikmaakt van een propagerings-gealigneerde, spaarzame spatio-temporele attentie-mechanisme en fysica-gedreven zelftoezicht om universele, geometrie-bewuste kanaalrepresentaties te leren die overleggen op diverse downstream-taken en prestaties verbeteren, zelfs bij beperkte data.

Sadjad Alikhani, Akshay Malhotra, Shahab Hamidi-Rad, Ahmed Alkhateeb2026-03-12🤖 cs.LG

HTM-EAR: Importance-Preserving Tiered Memory with Hybrid Routing under Saturation

Dit paper introduceert HTM-EAR, een hiërarchisch tiered memory-systeem dat HNSW-based werkgeheugen combineert met archiefopslag en hybride routing om essentiële informatie te behouden en verouderde data te vergeten onder extreme contextbeperkingen, wat leidt tot een significante verbetering in zoekprecisie vergeleken met traditionele LRU-mechanismen.

Shubham Kumar Singh2026-03-12🤖 cs.AI

Tureis: Transformer-based Unified Resilience for IoT Devices in Smart Homes

Tureis is een zelftoezichtende, contextbewuste Transformer-methode die in smart homes op basis van randapparatuur meerdere sensorstoringen detecteert en lokaliseert zonder labels, waardoor de nauwkeurigheid aanzienlijk verbetert ten opzichte van bestaande methoden.

Alireza Borhani, Vafa Andalibi, Bahar Asgari2026-03-12💻 cs

Evaluating Generalization Mechanisms in Autonomous Cyber Attack Agents

Dit artikel evalueert hoe goed autonome cyberaanval-agenten generaliseren bij onverwachte IP-adreswijzigingen en concludeert dat hoewel prompt-gedreven LLM-agenten de beste prestaties leveren op onbekende scenario's, dit ten koste gaat van transparantie en rekenkracht, terwijl andere aanpassingsmethoden significant prestatieverlies vertonen.

Ondřej Lukáš, Jihoon Shin, Emilia Rivas, Diego Forni, Maria Rigaki, Carlos Catania, Aritran Piplai, Christopher Kiekintveld, Sebastian Garcia2026-03-12💻 cs

Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety

Deze studie toont aan dat de manier waarop veiligheidsbenchmarks worden opgesteld (met name het gebruik van open-ended versus meerkeuzevragen) een grotere invloed heeft op de gemeten veiligheid van taalmodellen dan de specifieke architectuur van de scaffolding, en dat veiligheidsrangschikkingen sterk variëren afhankelijk van de gebruikte benchmark, waardoor universele claims over modelveiligheid onbetrouwbaar zijn.

David Gringras2026-03-12🤖 cs.AI

Gated Adaptation for Continual Learning in Human Activity Recognition

Dit artikel introduceert een parameter-efficiënt continu leerframework voor menselijke activiteitsherkenning dat door middel van kanaal-gewijze gatenmodulatie van bevroren pretrained representaties de balans tussen plasticiteit en stabiliteit verbetert, waardoor het vergeten van eerdere taken aanzienlijk wordt verminderd zonder dat er replay-buffers nodig zijn.

Reza Rahimi Azghan, Gautham Krishna Gudur, Mohit Malu, Edison Thomaz, Giulia Pedrielli, Pavan Turaga, Hassan Ghasemzadeh2026-03-12🤖 cs.LG

Revisiting Sharpness-Aware Minimization: A More Faithful and Effective Implementation

Dit paper introduceert eXplicit Sharpness-Aware Minimization (XSAM), een verbeterde implementatie die de beperkingen van de bestaande SAM-methode overwint door de richting van het maximum expliciet te schatten en een effectieve zoekruimte te creëren, wat resulteert in consistente prestatieverbeteringen met verwaarloosbare rekenkosten.

Jianlong Chen, Zhiming Zhou2026-03-12🤖 cs.LG

InFusionLayer: a CFA-based ensemble tool to generate new classifiers for learning and modeling

Dit paper introduceert InFusionLayer, een open-source Python-tool die Combinatorial Fusion Analysis (CFA) technieken, zoals de RSC-functie en cognitieve diversiteit, integreert in een ensemble-leerarchitectuur om de prestaties van multiclassificatieproblemen te verbeteren en compatibel is met PyTorch, TensorFlow en Scikit-learn.

Eric Roginek, Jingyan Xu, D. Frank. Hsu2026-03-12🤖 cs.LG

Where Do Flow Semantics Reside? A Protocol-Native Tabular Pretraining Paradigm for Encrypted Traffic Classification

Deze paper introduceert FlowSem-MAE, een protocol-natief tabulair pretrainingsparadigma dat de inductieve bias-mismatch van bestaande byte-sequentiemethoden oplost door protocolsemantiek te respecteren, waardoor het encrypted traffic classificatie aanzienlijk verbetert met slechts de helft van de gelabelde data.

Sizhe Huang, Shujie Yang2026-03-12🤖 cs.AI

OmniGuide: Universal Guidance Fields for Enhancing Generalist Robot Policies

Het artikel introduceert OMNIGUIDE, een flexibel raamwerk dat de prestaties van algemene robotbeleidmodellen (VLA's) op complexe taken aanzienlijk verbetert door diverse bronnen van geleiding om te zetten in differentieerbare energiefuncties die de actie-sampling sturen.

Yunzhou Song, Long Le, Yong-Hyun Park, Jie Wang, Junyao Shi, Lingjie Liu, Jiatao Gu, Eric Eaton, Dinesh Jayaraman, Kostas Daniilidis2026-03-12💻 cs

Cluster-Aware Attention-Based Deep Reinforcement Learning for Pickup and Delivery Problems

Dit paper introduceert CAADRL, een deep reinforcement learning-framework dat de clusterstructuur van Pickup and Delivery-problemen expliciet benut via cluster-bewuste codering en hiërarchische decoding om state-of-the-art prestaties te bereiken met aanzienlijk lagere inferentiële latentie dan bestaande methoden.

Wentao Wang, Lifeng Han, Guangyu Zou2026-03-12🤖 cs.LG

Quantization of Ricci Curvature in Information Geometry

Dit artikel bevestigt na twintig jaar het vermoeden dat de volumegemiddelde Ricci-scalar in informatiegeometrie voor boom- en volledige-graaf netwerken kwantisatie vertoont, weerlegt het echter voor algemene netwerken door tegenvoorbeelden aan te tonen en breidt de theorie uit naar Gaussische netwerken met een teken-dichotomie tussen discrete en continue structuren.

Carlos C. Rodriguez2026-03-12🔢 math

← Vorige Volgende →