cs.CL papers | Gist.Science

Mitigating Unintended Memorization with LoRA in Federated Learning for LLMs

Dit paper toont aan dat het gebruik van Low-Rank Adaptation (LoRA) in federatief leren voor grote taalmodellen de onbedoelde memorisatie van trainingsdata tot wel tien keer vermindert zonder significante prestatieverliezen, zelfs in risicovolle domeinen zoals geneeskunde, recht en financiën.

Thierry Bossy, Julien Vignoud, Tahseen Rabbani, Juan R. Troncoso Pastoriza, Martin Jaggi2026-03-10🤖 cs.LG

LaVCa: LLM-assisted Visual Cortex Captioning

Het artikel introduceert LaVCa, een data-gedreven methode die grote taalmodellen gebruikt om gedetailleerde natuurlijke taalbeschrijvingen te genereren voor de selectiviteit van neurale populaties in de visuele cortex, waarmee de beperkingen van bestaande diepe-neurale-netwerkmodellen worden overwonnen en fijnmazigere inzichten in menselijke visuele representaties worden verkregen.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

Dit paper introduceert het Clustering-On-Difficulty (COD)-framework, dat taken clusteren op basis van hun schaalingsmoeilijkheid om een nauwkeurige voorspelling van de downstream-prestaties van grote taalmodellen mogelijk te maken, zelfs bij het optreden van emergente fenomenen.

Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li2026-03-10🤖 cs.LG

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

Dit paper introduceert HaLoRA, een hardwarebewuste methode die de energie-efficiëntie van een hybride Compute-in-Memory-architectuur combineert met de nauwkeurigheid van Large Language Models door een robuuste Low-Rank Adaptatie te trainen die de inherente ruis van RRAM-geheugen compenseert.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai Wong2026-03-10💬 cs.CL

More Women, Same Stereotypes: Unpacking the Gender Bias Paradox in Large Language Models

Hoewel grote taalmodellen vrouwelijke karakters vaker genereren dan in de realiteit het geval is, vertonen hun verhalen over beroepen nog steeds een sterkere overeenkomst met genderstereotypen dan met feitelijke arbeidsmarktgegevens, wat wijst op de blijvende uitdaging om deze vooroordelen effectief te mitigeren.

Evan Chen, Run-Jun Zhan, Yan-Bai Lin, Hung-Hsuan Chen2026-03-10💬 cs.CL

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Deze paper introduceert EDU-PRM, een nieuw trainingsframework dat gebruikmaakt van entropie-gedreven onzekerheid om complexe redeneerstappen automatisch te segmenteren zonder dure handmatige annotaties, waardoor het op het ProcessBench-benchmark presteert met slechts 1,5% van de trainingsdata en tegelijkertijd de nauwkeurigheid verhoogt terwijl het tokenverbruik met 32% daalt.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Causal Retrieval with Semantic Consideration

Dit paper introduceert CAWAI, een nieuw retrieval-model dat door middel van dubbele trainingsdoelen zowel semantische als causale relaties in kaart brengt om de nauwkeurigheid van informatieopzoeking in kennisintensieve domeinen te verbeteren.

Hyunseo Shin, Wonseok Hwang2026-03-10💬 cs.CL

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Dit onderzoek toont aan dat het combineren van Large Language Models voor het extraheren van cognitieve en taalkundige kenmerken met boomgebaseerde machine learning-algoritmen een nauwkeuriger methode biedt om de moeilijkheidsgraad van K-5 wiskunde- en leesitems te voorspellen dan directe schattingen door LLM's, waardoor de afhankelijkheid van uitgebreide veldtests kan worden verminderd.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Dit paper introduceert Task 5 van de DCASE 2025 Challenge, een meerdimensionale benchmark voor audio-vraag-antwoordtaken die de redeneervermogens van audio-taalmodellen in diverse akoestische domeinen evalueert.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan Catanzaro2026-03-10💬 cs.CL

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

FreeKV is een trainingsvrije, co-geoptimaliseerde framework dat de efficiëntie van KV-cache-retrieval voor grote taalmodellen aanzienlijk verbetert door speculatieve retrieval en hybride geheugenlayouts te combineren, waardoor een snelheidswinst tot 13x wordt bereikt met minimale nauwkeurigheidsverlies.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru Zhao2026-03-10🤖 cs.LG

A Neuro-Symbolic Approach for Reliable Proof Generation with LLMs: A Case Study in Euclidean Geometry

Dit paper introduceert een neuro-symbolische aanpak die grote taalmodellen combineert met analoge probleemoplossing en een formele verificateur om de betrouwbaarheid en nauwkeurigheid van het genereren van wiskundige bewijzen in de euclidische meetkunde aanzienlijk te verbeteren.

Oren Sultan, Eitan Stern, Dafna Shahaf2026-03-10💬 cs.CL

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

Het paper introduceert MAS-ZERO, het eerste zelfevoluerende raamwerk voor het ontwerpen van multi-agent systemen zonder toezicht dat tijdens de inferentie dynamisch agentconfiguraties aanpast en verfijnt op basis van meta-feedback, waardoor het aanzienlijk beter presteert dan bestaande handmatige en automatische methoden op diverse complexe taken.

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq Joty2026-03-10🤖 cs.LG

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

Dit paper introduceert HDLxGraph, een nieuw framework dat Large Language Models koppelt aan HDL-repositories via grafische databases en Abstract Syntax Trees om de beperkingen van traditionele RAG-systemen bij complexe hardware-beschrijvingsopdrachten te overwinnen, ondersteund door een nieuw benchmark-dataset genaamd HDLSearch.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), Zhao2026-03-10🤖 cs.LG

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving

SwingArena is een competitief evaluatiekader voor grote taalmodellen dat realistische softwareontwikkelingswerkstromen nabootst door interactieve patchgeneratie en CI-gedreven validatie te combineren met een retrieval-augmented module voor het oplossen van lange-context GitHub-issues.

Wendong Xu, Jing Xiong, Chenyang Zhao, Qiujiang Chen, Haoran Wang, Hui Shen, Zhongwei Wan, Jianbo Dai, Taiqiang Wu, He Xiao, Chaofan Tao, Z. Morley Mao, Ying Sheng, Zhijiang Guo, Hongxia Yang, Bei Yu, Lingpeng Kong, Quanquan Gu, Ngai Wong2026-03-10💬 cs.CL

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Dit paper introduceert MMTU, een uitgebreid benchmark met meer dan 28.000 vragen over 25 real-world tabellataken, om de complexiteit van het begrijpen, redeneren en manipuleren van tabellen door geavanceerde AI-modellen te evalueren en aan te tonen dat er nog aanzienlijke ruimte voor verbetering is.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

CyclicReflex: Improving Reasoning Models via Cyclical Reflection Token Scheduling

Het paper introduceert CyclicReflex, een trainingsvrije decoderingsstrategie die de prestaties van grote redeneermodellen verbetert door de frequentie en plaatsing van reflectietokens dynamisch te reguleren via een cyclisch scheduling-mechanisme, vergelijkbaar met het plannen van leersnelheden.

Chongyu Fan, Yihua Zhang, Jinghan Jia, Alfred Hero, Sijia Liu2026-03-10💬 cs.CL

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

Dit paper introduceert MeRF, een methode die de prestaties van versterkingslering bij grote redeneringsmodellen verbetert door de beloningsfunctie expliciet in de prompt te integreren als 'motivatie', waardoor het model de optimalisatiedoelstellingen beter begrijpt en sneller leert.

Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng Tao2026-03-10💬 cs.CL

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

Dit paper introduceert een methode genaamd Self-Grounded Verification (SGV) die de neiging van multimodale taalmodellen om agenten-acties te overdreven te valideren (de 'agreement bias') vermindert, waardoor de nauwkeurigheid van verifiers en de prestaties van agenten in taken zoals webnavigatie en robotica aanzienlijk worden verbeterd.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Goal Alignment in LLM-Based User Simulators for Conversational AI

Dit paper introduceert het UGST-framework om de beperkingen van huidige LLM-gebaseerde gebruikerssimulatoren in het behalen van doelen in meervoudige conversaties aan te pakken, waardoor aanzienlijke verbeteringen worden bereikt in de doelgerichtheid en betrouwbaarheid voor downstream-toepassingen.

Shuhaib Mehri, Xiaocheng Yang, Takyoung Kim, Gokhan Tur, Shikib Mehri, Dilek Hakkani-Tür2026-03-10💬 cs.CL

MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy

Het paper introduceert MathSmith, een nieuw framework dat door middel van reinforcement learning en strategieën voor synthetische probleemgeneratie vanuit PlanetMath hoogwaardige en uitdagende wiskundige oefeningen creëert om het redeneervermogen van grote taalmodellen aanzienlijk te verbeteren.

Shaoxiong Zhan, Yanlin Lai, Ziyu Lu, Dahua Lin, Ziqing Yang, Fei Tan2026-03-10💬 cs.CL

← Vorige Volgende →