cs.LG papers | Gist.Science

CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

Dit paper introduceert CARE, een agentisch raamwerk dat multi-modale medische redenering verbetert door het werkproces te ontleden in gespecialiseerde modules voor visuele gronding en redenering, waardoor de nauwkeurigheid en klinische verantwoordbaarheid van AI-systemen aanzienlijk stijgt.

Yuexi Du, Jinglu Wang, Shujie Liu, Nicha C. Dvornek, Yan Lu2026-03-12🤖 cs.AI

CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

Dit paper introduceert CFG-Ctrl, een unificerend raamwerk dat Classifier-Free Guidance herinterpreteert als een regeling, en presenteert SMC-CFG, een methode gebaseerd op glijdende-modusregeling die de stabiliteit en semantische nauwkeurigheid van generatieve stromen verbetert door niet-lineaire feedback te gebruiken om de beperkingen van lineaire benaderingen te overwinnen.

Hanyang Wang, Yiyang Liu, Jiawei Chi, Fangfu Liu, Ran Xue, Yueqi Duan2026-03-12🤖 cs.LG

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Deze studie toont aan dat parameter-efficiënte fine-tuning (PEFT) voor meerdere code-analysetaken tegelijkertijd een uitstekende prestatie-efficiëntiebalans biedt die vaak volledig fine-tuning benadert of zelfs overtreft, terwijl het opslag- en rekencosten aanzienlijk verlaagt en superieur is aan directe prompting van grote open-source modellen.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

Explainable LLM Unlearning Through Reasoning

Dit paper introduceert Targeted Reasoning Unlearning (TRU), een nieuwe methode die gebruikmaakt van een redeneringsgebaseerde doelstelling om ongewenste kennis in grote taalmodellen nauwkeurig en uitlegbaar te verwijderen zonder de algemene prestaties te schaden.

Junfeng Liao, Qizhou Wang, Shanshan Ye, Xin Yu, Ling Chen, Zhen Fang2026-03-12🤖 cs.LG

MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios

Dit paper introduceert MoE-SpAc, een inferentieframework voor MoE-modellen op heterogene randapparaten dat speculatieve decoding gebruikt als voorspellende sensor voor geheugenbeheer en dynamische werklastverdeling, wat resulteert in aanzienlijke snelheidsverbeteringen ten opzichte van bestaande methoden.

Shuhuai Li, Jianghao Lin, Dongdong Ge, Yinyu Ye2026-03-12🤖 cs.LG

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

Deze paper introduceert een framework dat de prestaties van Large Language Models bij Feature Transformation verbetert door een gesloten lus te gebruiken waarin trajecten van succesvolle transformaties worden geëvolueerd en geselecteerd via diversiteitsbewuste contextoptimalisatie, wat leidt tot superieure resultaten op diverse tabulaire benchmarks.

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Dit paper introduceert TAMUSA-Chat, een onderzoeksvriendelijk raamwerk voor het ontwikkelen van domein-geadapteerde conversatiemodellen voor academische instellingen, dat gebruikmaakt van gecontroleerde fijne afstemming en retrieval-augmented generation om verantwoorde en transparante AI-deployments te waarborgen.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Dit onderzoek evalueert de robuustheid en pedagogische veiligheid van offline grote taalmodellen voor het Turks erfgoedonderwijs en concludeert dat modellen met 8 tot 14 miljard parameters de beste balans bieden tussen kosten en veiligheid, aangezien grotere schaal niet automatisch leidt tot betere weerstand tegen anomalieën of minder sycofantische bias.

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Beyond the Prompt in Large Language Models: Comprehension, In-Context Learning, and Chain-of-Thought

Deze studie biedt theoretische inzichten in de werking van grote taalmodellen door aan te tonen dat promptcomprehensie, in-context learning en chain-of-thought redenering gebaseerd zijn op het nauwkeurig infereren van overgangskansen, het verminderen van ambiguïteit en het activeren van taakdecompositie via autoregressieve processen.

Yuling Jiao, Yanming Lai, Huazhen Lin, Wensen Ma, Houduo Qi, Defeng Sun2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Dit artikel introduceert LatamQA, een dataset van meer dan 26.000 meervoudige keuzevragen in het Spaans en Portugees, afgeleid van Wikidata en Wikipedia, om de geografische en culturele bias van grote taalmodellen ten opzichte van Latijns-Amerika te kwantificeren en te onthullen dat deze modellen vaak beter presteren voor Iberische Spaanse cultuur dan voor die van Latijns-Amerika.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

Dit paper introduceert SpreadsheetArena, een platform voor de evaluatie van grote taalmodellen bij het genereren van volledige spreadsheetwerkboeken via blinde paarvergelijkingen, waarbij wordt vastgesteld dat voorkeuren sterk variëren en zelfs geavanceerde modellen moeite hebben met het naleven van domeinspecifieke beste praktijken.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

Probing the Limits of the Lie Detector Approach to LLM Deception

Dit paper toont aan dat bestaande 'leugendetectors' voor grote taalmodellen tekortschotten omdat ze zich uitsluitend op onwaarheden richten, terwijl modellen ook succesvol kunnen bedriegen door misleidende maar feitelijke uitspraken te doen.

Tom-Felix Berger2026-03-12💬 cs.CL

GATech at AbjadGenEval Shared Task: Multilingual Embeddings for Arabic Machine-Generated Text Classification

In deze paper presenteren de auteurs van GATech hun aanpak voor de AbjadGenEval-taak, waarbij ze vaststellen dat een eenvoudig gemiddelde pooling-methode op een fine-getuned multilinguale E5-large-encoder de beste resultaten boekt voor het detecteren van AI-gegenereerde Arabische tekst, mede door het waarneembare verschil in tekstlengte tussen menselijke en machine-gegenereerde inhoud.

Ahmed Khaled Khamis2026-03-12💬 cs.CL

GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

Dit artikel toont aan dat voor de classificatie van Arabische medische teksten in 82 categorieën gespecialiseerde bidirectionele encoders (zoals AraBERTv2) aanzienlijk beter presteren dan causale decoders, omdat ze een meer robuuste globale semantische context vastleggen die essentieel is voor nauwkeurige fijnkorrelige categorisatie.

Ahmed Khaled Khamis2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

Dit paper introduceert Personalized GRPO (P-GRPO), een nieuw framework dat de beperkingen van standaard GRPO voor persoonlijke voorkeursuitlijning oplost door de voordeelsschatting te ontkoppelen van batchstatistieken en te normaliseren op basis van voorkeursgroepspecifieke geschiedenis, wat leidt tot snellere convergentie en een betere uitlijning met heterogene menselijke voorkeuren.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

Defining AI Models and AI Systems: A Framework to Resolve the Boundary Problem

Dit paper presenteert een conceptueel en operationeel raamwerk om de ambiguïteit tussen 'AI-modellen' en 'AI-systemen' op te lossen door respectievelijk gedefinieerd te worden als trainingsparameters met architectuur en als het model plus aanvullende componenten, waarmee de toewijzing van verantwoordelijkheden in de AI-waardeketen voor regelgeving wordt verduidelijkt.

Yuanyuan Sun, Timothy Parker, Lara Gierschmann, Sana Shams, Teo Canmetin, Mathieu Duteil, Rokas Gipiškis, Ze Shen Chin2026-03-12🤖 cs.AI

LWM-Temporal: Sparse Spatio-Temporal Attention for Wireless Channel Representation Learning

LWM-Temporal is een nieuw, taak-onafhankelijk fundamenteel model voor draadloze kanalen dat gebruikmaakt van een propagerings-gealigneerde, spaarzame spatio-temporele attentie-mechanisme en fysica-gedreven zelftoezicht om universele, geometrie-bewuste kanaalrepresentaties te leren die overleggen op diverse downstream-taken en prestaties verbeteren, zelfs bij beperkte data.

Sadjad Alikhani, Akshay Malhotra, Shahab Hamidi-Rad, Ahmed Alkhateeb2026-03-12🤖 cs.LG

HTM-EAR: Importance-Preserving Tiered Memory with Hybrid Routing under Saturation

Dit paper introduceert HTM-EAR, een hiërarchisch tiered memory-systeem dat HNSW-based werkgeheugen combineert met archiefopslag en hybride routing om essentiële informatie te behouden en verouderde data te vergeten onder extreme contextbeperkingen, wat leidt tot een significante verbetering in zoekprecisie vergeleken met traditionele LRU-mechanismen.

Shubham Kumar Singh2026-03-12🤖 cs.AI

Tureis: Transformer-based Unified Resilience for IoT Devices in Smart Homes

Tureis is een zelftoezichtende, contextbewuste Transformer-methode die in smart homes op basis van randapparatuur meerdere sensorstoringen detecteert en lokaliseert zonder labels, waardoor de nauwkeurigheid aanzienlijk verbetert ten opzichte van bestaande methoden.

Alireza Borhani, Vafa Andalibi, Bahar Asgari2026-03-12💻 cs

Evaluating Generalization Mechanisms in Autonomous Cyber Attack Agents

Dit artikel evalueert hoe goed autonome cyberaanval-agenten generaliseren bij onverwachte IP-adreswijzigingen en concludeert dat hoewel prompt-gedreven LLM-agenten de beste prestaties leveren op onbekende scenario's, dit ten koste gaat van transparantie en rekenkracht, terwijl andere aanpassingsmethoden significant prestatieverlies vertonen.

Ondřej Lukáš, Jihoon Shin, Emilia Rivas, Diego Forni, Maria Rigaki, Carlos Catania, Aritran Piplai, Christopher Kiekintveld, Sebastian Garcia2026-03-12💻 cs

← Vorige Volgende →