cs.LG papers | Gist.Science

Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

Dit paper introduceert Fine-grained Group Policy Optimization (FGO), een versterkt leer-algoritme dat de inefficiëntie en entropie-inzakking van GRPO oplost en effectieve compressie van Chain-of-Thought-redeneringen mogelijk maakt zonder prestatieverlies.

Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin2026-03-12🤖 cs.LG

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

Het paper introduceert GOT-JEPA, een model-predictief pretrainingsframework dat de generalisatie en robustheid van objecttracking verbetert door het voorspellen van trackingmodellen in plaats van beeldfeatures, aangevuld met OccuSolver voor verfijnde verwerking van occlusies.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-12🤖 cs.AI

LexiSafe: Offline Safe Reinforcement Learning with Lexicographic Safety-Reward Hierarchy

Het artikel introduceert LexiSafe, een nieuw offline veiligheidsversterkingsleerframework dat een lexicografische hiërarchie tussen veiligheid en beloning hanteert om veiligheidsdrift te voorkomen en theoretisch onderbouwde prestaties te garanderen voor veiligheidskritieke cyberfysische systemen.

Hsin-Jung Yang, Zhanhong Jiang, Prajwal Koirala, Qisai Liu, Cody Fleming, Soumik Sarkar2026-03-12⚡ eess

ZACH-ViT: Regime-Dependent Inductive Bias in Compact Vision Transformers for Medical Imaging

Dit paper introduceert ZACH-ViT, een compacte Vision Transformer zonder positiële embeddings of [CLS]-token die door het verwijderen van vaste ruimtelijke prioren een adaptieve inductieve bias biedt die onder data-scarce omstandigheden in de medische beeldvorming superieure prestaties levert op datasets met zwakke ruimtelijke structuren.

Athanasios Angelakis2026-03-12⚡ eess

Benchmarking Graph Neural Networks in Solving Hard Constraint Satisfaction Problems

Dit paper introduceert nieuwe benchmarks voor moeilijke constraint satisfaction problemen op basis van statistische fysica en toont aan dat klassieke algoritmen momenteel nog steeds beter presteren dan graph neural networks.

Geri Skenderi, Lorenzo Buffoni, Francesco D'Amico, David Machado, Raffaele Marino, Matteo Negri, Federico Ricci-Tersenghi, Carlo Lucibello, Maria Chiara Angelini2026-03-12🔬 cond-mat

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

Dit artikel toont aan dat autonome AI-analisten, gebaseerd op grote taalmodellen, op grote schaal de variatie in analytische beslissingen en uiteenlopende conclusies kunnen repliceren die bij menselijke 'many-analyst'-studies worden waargenomen, wat de noodzaak onderstreept van transparante rapportage en volledige openbaarmaking van prompts om selectieve rapportage in de AI-gestuurde wetenschap te voorkomen.

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu2026-03-12🤖 cs.AI

Active Value Querying to Minimize Additive Error in Subadditive Set Function Learning

Dit paper introduceert actieve query-methoden om de additieve fout te minimaliseren bij het leren van subadditieve verzamelfuncties, door de onzekerheid tussen minimale en maximale completering van ontbrekende waarden te verkleinen in zowel offline als online scenario's.

Martin Černý, David Sychrovský, Filip Úradník, Jakub Černý2026-03-12🤖 cs.LG

How Large Language Models Get Stuck: Early structure with persistent errors

Dit onderzoek toont aan dat Meta's OPT-model, wanneer getraind op de BabyLM-dataset, in bijna een derde van de BLiMP-grammaticale tests faalt doordat het vroeg in het trainingsproces vastloopt in persistente, foutieve bias die moeilijk te corrigeren is, een fenomeen dat de auteurs verklaren met de Bigram-hypothese.

Alokesh Manna, William Snyder, Whitney Tabor2026-03-12💬 cs.CL

CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

Dit paper introduceert CARE, een agentisch raamwerk dat multi-modale medische redenering verbetert door het werkproces te ontleden in gespecialiseerde modules voor visuele gronding en redenering, waardoor de nauwkeurigheid en klinische verantwoordbaarheid van AI-systemen aanzienlijk stijgt.

Yuexi Du, Jinglu Wang, Shujie Liu, Nicha C. Dvornek, Yan Lu2026-03-12🤖 cs.AI

CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

Dit paper introduceert CFG-Ctrl, een unificerend raamwerk dat Classifier-Free Guidance herinterpreteert als een regeling, en presenteert SMC-CFG, een methode gebaseerd op glijdende-modusregeling die de stabiliteit en semantische nauwkeurigheid van generatieve stromen verbetert door niet-lineaire feedback te gebruiken om de beperkingen van lineaire benaderingen te overwinnen.

Hanyang Wang, Yiyang Liu, Jiawei Chi, Fangfu Liu, Ran Xue, Yueqi Duan2026-03-12🤖 cs.LG

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Deze studie toont aan dat parameter-efficiënte fine-tuning (PEFT) voor meerdere code-analysetaken tegelijkertijd een uitstekende prestatie-efficiëntiebalans biedt die vaak volledig fine-tuning benadert of zelfs overtreft, terwijl het opslag- en rekencosten aanzienlijk verlaagt en superieur is aan directe prompting van grote open-source modellen.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

Explainable LLM Unlearning Through Reasoning

Dit paper introduceert Targeted Reasoning Unlearning (TRU), een nieuwe methode die gebruikmaakt van een redeneringsgebaseerde doelstelling om ongewenste kennis in grote taalmodellen nauwkeurig en uitlegbaar te verwijderen zonder de algemene prestaties te schaden.

Junfeng Liao, Qizhou Wang, Shanshan Ye, Xin Yu, Ling Chen, Zhen Fang2026-03-12🤖 cs.LG

MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios

Dit paper introduceert MoE-SpAc, een inferentieframework voor MoE-modellen op heterogene randapparaten dat speculatieve decoding gebruikt als voorspellende sensor voor geheugenbeheer en dynamische werklastverdeling, wat resulteert in aanzienlijke snelheidsverbeteringen ten opzichte van bestaande methoden.

Shuhuai Li, Jianghao Lin, Dongdong Ge, Yinyu Ye2026-03-12🤖 cs.LG

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

Deze paper introduceert een framework dat de prestaties van Large Language Models bij Feature Transformation verbetert door een gesloten lus te gebruiken waarin trajecten van succesvolle transformaties worden geëvolueerd en geselecteerd via diversiteitsbewuste contextoptimalisatie, wat leidt tot superieure resultaten op diverse tabulaire benchmarks.

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Dit paper introduceert TAMUSA-Chat, een onderzoeksvriendelijk raamwerk voor het ontwikkelen van domein-geadapteerde conversatiemodellen voor academische instellingen, dat gebruikmaakt van gecontroleerde fijne afstemming en retrieval-augmented generation om verantwoorde en transparante AI-deployments te waarborgen.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Dit onderzoek evalueert de robuustheid en pedagogische veiligheid van offline grote taalmodellen voor het Turks erfgoedonderwijs en concludeert dat modellen met 8 tot 14 miljard parameters de beste balans bieden tussen kosten en veiligheid, aangezien grotere schaal niet automatisch leidt tot betere weerstand tegen anomalieën of minder sycofantische bias.

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Beyond the Prompt in Large Language Models: Comprehension, In-Context Learning, and Chain-of-Thought

Deze studie biedt theoretische inzichten in de werking van grote taalmodellen door aan te tonen dat promptcomprehensie, in-context learning en chain-of-thought redenering gebaseerd zijn op het nauwkeurig infereren van overgangskansen, het verminderen van ambiguïteit en het activeren van taakdecompositie via autoregressieve processen.

Yuling Jiao, Yanming Lai, Huazhen Lin, Wensen Ma, Houduo Qi, Defeng Sun2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Dit artikel introduceert LatamQA, een dataset van meer dan 26.000 meervoudige keuzevragen in het Spaans en Portugees, afgeleid van Wikidata en Wikipedia, om de geografische en culturele bias van grote taalmodellen ten opzichte van Latijns-Amerika te kwantificeren en te onthullen dat deze modellen vaak beter presteren voor Iberische Spaanse cultuur dan voor die van Latijns-Amerika.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

Dit paper introduceert SpreadsheetArena, een platform voor de evaluatie van grote taalmodellen bij het genereren van volledige spreadsheetwerkboeken via blinde paarvergelijkingen, waarbij wordt vastgesteld dat voorkeuren sterk variëren en zelfs geavanceerde modellen moeite hebben met het naleven van domeinspecifieke beste praktijken.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

Probing the Limits of the Lie Detector Approach to LLM Deception

Dit paper toont aan dat bestaande 'leugendetectors' voor grote taalmodellen tekortschotten omdat ze zich uitsluitend op onwaarheden richten, terwijl modellen ook succesvol kunnen bedriegen door misleidende maar feitelijke uitspraken te doen.

Tom-Felix Berger2026-03-12💬 cs.CL

← Vorige Volgende →