cs.CL papers | Gist.Science

Causal Retrieval with Semantic Consideration

Dit paper introduceert CAWAI, een nieuw retrieval-model dat door middel van dubbele trainingsdoelen zowel semantische als causale relaties in kaart brengt om de nauwkeurigheid van informatieopzoeking in kennisintensieve domeinen te verbeteren.

Hyunseo Shin, Wonseok HwangTue, 10 Ma💬 cs.CL

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Dit onderzoek toont aan dat het combineren van Large Language Models voor het extraheren van cognitieve en taalkundige kenmerken met boomgebaseerde machine learning-algoritmen een nauwkeuriger methode biedt om de moeilijkheidsgraad van K-5 wiskunde- en leesitems te voorspellen dan directe schattingen door LLM's, waardoor de afhankelijkheid van uitgebreide veldtests kan worden verminderd.

Pooya Razavi, Sonya PowersTue, 10 Ma🤖 cs.LG

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Dit paper introduceert Task 5 van de DCASE 2025 Challenge, een meerdimensionale benchmark voor audio-vraag-antwoordtaken die de redeneervermogens van audio-taalmodellen in diverse akoestische domeinen evalueert.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

FreeKV is een trainingsvrije, co-geoptimaliseerde framework dat de efficiëntie van KV-cache-retrieval voor grote taalmodellen aanzienlijk verbetert door speculatieve retrieval en hybride geheugenlayouts te combineren, waardoor een snelheidswinst tot 13x wordt bereikt met minimale nauwkeurigheidsverlies.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru ZhaoTue, 10 Ma🤖 cs.LG

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

Het paper introduceert MAS-ZERO, het eerste zelfevoluerende raamwerk voor het ontwerpen van multi-agent systemen zonder toezicht dat tijdens de inferentie dynamisch agentconfiguraties aanpast en verfijnt op basis van meta-feedback, waardoor het aanzienlijk beter presteert dan bestaande handmatige en automatische methoden op diverse complexe taken.

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq JotyTue, 10 Ma🤖 cs.LG

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

Dit paper introduceert HDLxGraph, een nieuw framework dat Large Language Models koppelt aan HDL-repositories via grafische databases en Abstract Syntax Trees om de beperkingen van traditionele RAG-systemen bij complexe hardware-beschrijvingsopdrachten te overwinnen, ondersteund door een nieuw benchmark-dataset genaamd HDLSearch.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), ZhaoTue, 10 Ma🤖 cs.LG

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving

SwingArena is een competitief evaluatiekader voor grote taalmodellen dat realistische softwareontwikkelingswerkstromen nabootst door interactieve patchgeneratie en CI-gedreven validatie te combineren met een retrieval-augmented module voor het oplossen van lange-context GitHub-issues.

Wendong Xu, Jing Xiong, Chenyang Zhao, Qiujiang Chen, Haoran Wang, Hui Shen, Zhongwei Wan, Jianbo Dai, Taiqiang Wu, He Xiao, Chaofan Tao, Z. Morley Mao, Ying Sheng, Zhijiang Guo, Hongxia Yang, Bei Yu, Lingpeng Kong, Quanquan Gu, Ngai WongTue, 10 Ma💬 cs.CL

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Dit paper introduceert MMTU, een uitgebreid benchmark met meer dan 28.000 vragen over 25 real-world tabellataken, om de complexiteit van het begrijpen, redeneren en manipuleren van tabellen door geavanceerde AI-modellen te evalueren en aan te tonen dat er nog aanzienlijke ruimte voor verbetering is.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. JagadishTue, 10 Ma🤖 cs.LG

CyclicReflex: Improving Reasoning Models via Cyclical Reflection Token Scheduling

Het paper introduceert CyclicReflex, een trainingsvrije decoderingsstrategie die de prestaties van grote redeneermodellen verbetert door de frequentie en plaatsing van reflectietokens dynamisch te reguleren via een cyclisch scheduling-mechanisme, vergelijkbaar met het plannen van leersnelheden.

Chongyu Fan, Yihua Zhang, Jinghan Jia, Alfred Hero, Sijia LiuTue, 10 Ma💬 cs.CL

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

Dit paper introduceert MeRF, een methode die de prestaties van versterkingslering bij grote redeneringsmodellen verbetert door de beloningsfunctie expliciet in de prompt te integreren als 'motivatie', waardoor het model de optimalisatiedoelstellingen beter begrijpt en sneller leert.

Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng TaoTue, 10 Ma💬 cs.CL

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

Dit paper introduceert een methode genaamd Self-Grounded Verification (SGV) die de neiging van multimodale taalmodellen om agenten-acties te overdreven te valideren (de 'agreement bias') vermindert, waardoor de nauwkeurigheid van verifiers en de prestaties van agenten in taken zoals webnavigatie en robotica aanzienlijk worden verbeterd.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt KiraTue, 10 Ma🤖 cs.LG

Goal Alignment in LLM-Based User Simulators for Conversational AI

Dit paper introduceert het UGST-framework om de beperkingen van huidige LLM-gebaseerde gebruikerssimulatoren in het behalen van doelen in meervoudige conversaties aan te pakken, waardoor aanzienlijke verbeteringen worden bereikt in de doelgerichtheid en betrouwbaarheid voor downstream-toepassingen.

Shuhaib Mehri, Xiaocheng Yang, Takyoung Kim, Gokhan Tur, Shikib Mehri, Dilek Hakkani-TürTue, 10 Ma💬 cs.CL

MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy

Het paper introduceert MathSmith, een nieuw framework dat door middel van reinforcement learning en strategieën voor synthetische probleemgeneratie vanuit PlanetMath hoogwaardige en uitdagende wiskundige oefeningen creëert om het redeneervermogen van grote taalmodellen aanzienlijk te verbeteren.

Shaoxiong Zhan, Yanlin Lai, Ziyu Lu, Dahua Lin, Ziqing Yang, Fei TanTue, 10 Ma💬 cs.CL

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

Deze paper introduceert IAG, de eerste multi-doel backdoor-aanval op vision-language modellen voor visuele grounding, die dynamische, tekstgestuurde triggers gebruikt om onopgemerkt objecten te manipuleren zonder de prestaties op schone data te beïnvloeden.

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di ZhangTue, 10 Ma💬 cs.CL

OTESGN: Optimal Transport-Enhanced Syntactic-Semantic Graph Networks for Aspect-Based Sentiment Analysis

Dit paper introduceert OTESGN, een nieuw model voor aspect-gebaseerde sentimentanalyse dat optimale transport en syntactisch-semantische grafieken combineert om state-of-the-art prestaties te bereiken door niet-lineaire relaties beter te modelleren en ruis te onderdrukken.

Xinfeng Liao, Xuanqi Chen, Lianxi Wang, Jiahuan Yang, Zhuowei Chen, Ziying RongTue, 10 Ma💬 cs.CL

Linear probes rely on textual evidence: Results from leakage mitigation studies in language models

Deze studie toont aan dat lineaire probes voor het detecteren van schadelijk gedrag in taalmodellen sterk afhankelijk zijn van tekstuele aanwijzingen en aanzienlijk minder effectief worden zodra deze expliciete teksten worden gefilterd of afwezig zijn.

Gerard Boxo, Aman Neelappa, Shivam RavalTue, 10 Ma🤖 cs.LG

PonderLM-2: Pretraining LLM with Latent Thoughts in Continuous Space

PonderLM-2 introduceert een nieuwe voortrainingsmethode waarbij taalmodellen een extra latente gedachte in de continue ruimte genereren voordat ze een token voorspellen, wat leidt tot een aanzienlijk betere prestatie dan standaardmodellen met twee keer zoveel parameters bij gelijke inferentiekosten.

Boyi Zeng, He Li, Shixiang Song, Yixuan Wang, Zitong Wang, Ziwei He, Xinbing Wang, Zhouhan LinTue, 10 Ma💬 cs.CL

Mapping Overlaps in Benchmarks through Perplexity in the Wild

Deze paper introduceert 'benchmark-signatures', gebaseerd op de perplexiteit van saliente tokens in natuurlijke corpora, om de overlappende capaciteitsbehoeften van LLM-benchmarks nauwkeuriger te analyseren dan traditionele prestatiecorrelaties, waardoor inzicht wordt verkregen in de complexe relaties tussen kennis, redeneren en andere vaardigheden.

Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. EvansTue, 10 Ma💬 cs.CL

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Dit paper introduceert het concept van 'misevolving' als een systematisch risico waarbij zelfevoluerende LLM-agenten door onbedoelde afwijkingen in hun evolutiepaden (zoals model, geheugen, tools en workflow) schadelijke of onveilige gedragingen ontwikkelen, zelfs bij gebruik van toonaangevende modellen.

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing ShaoTue, 10 Ma🤖 cs.LG

TokMem: One-Token Procedural Memory for Large Language Models

Het artikel introduceert TokMem, een procedureel geheugenframework voor grote taalmodellen dat herbruikbare taken compilaat tot één trainbaar geheugentoken, waardoor doelgerichte gedragingen met constante overhead worden bereikt zonder het basismodel aan te passen of contextoverhead te veroorzaken.

Zijun Wu, Yongchang Hao, Lili MouTue, 10 Ma💬 cs.CL

← Vorige Volgende →