cs.CL papers | Gist.Science

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

Deze paper introduceert IAG, de eerste multi-doel backdoor-aanval op vision-language modellen voor visuele grounding, die dynamische, tekstgestuurde triggers gebruikt om onopgemerkt objecten te manipuleren zonder de prestaties op schone data te beïnvloeden.

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di Zhang2026-03-10💬 cs.CL

OTESGN: Optimal Transport-Enhanced Syntactic-Semantic Graph Networks for Aspect-Based Sentiment Analysis

Dit paper introduceert OTESGN, een nieuw model voor aspect-gebaseerde sentimentanalyse dat optimale transport en syntactisch-semantische grafieken combineert om state-of-the-art prestaties te bereiken door niet-lineaire relaties beter te modelleren en ruis te onderdrukken.

Xinfeng Liao, Xuanqi Chen, Lianxi Wang, Jiahuan Yang, Zhuowei Chen, Ziying Rong2026-03-10💬 cs.CL

Linear probes rely on textual evidence: Results from leakage mitigation studies in language models

Deze studie toont aan dat lineaire probes voor het detecteren van schadelijk gedrag in taalmodellen sterk afhankelijk zijn van tekstuele aanwijzingen en aanzienlijk minder effectief worden zodra deze expliciete teksten worden gefilterd of afwezig zijn.

Gerard Boxo, Aman Neelappa, Shivam Raval2026-03-10🤖 cs.LG

PonderLM-2: Pretraining LLM with Latent Thoughts in Continuous Space

PonderLM-2 introduceert een nieuwe voortrainingsmethode waarbij taalmodellen een extra latente gedachte in de continue ruimte genereren voordat ze een token voorspellen, wat leidt tot een aanzienlijk betere prestatie dan standaardmodellen met twee keer zoveel parameters bij gelijke inferentiekosten.

Boyi Zeng, He Li, Shixiang Song, Yixuan Wang, Zitong Wang, Ziwei He, Xinbing Wang, Zhouhan Lin2026-03-10💬 cs.CL

Mapping Overlaps in Benchmarks through Perplexity in the Wild

Deze paper introduceert 'benchmark-signatures', gebaseerd op de perplexiteit van saliente tokens in natuurlijke corpora, om de overlappende capaciteitsbehoeften van LLM-benchmarks nauwkeuriger te analyseren dan traditionele prestatiecorrelaties, waardoor inzicht wordt verkregen in de complexe relaties tussen kennis, redeneren en andere vaardigheden.

Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. Evans2026-03-10💬 cs.CL

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Dit paper introduceert het concept van 'misevolving' als een systematisch risico waarbij zelfevoluerende LLM-agenten door onbedoelde afwijkingen in hun evolutiepaden (zoals model, geheugen, tools en workflow) schadelijke of onveilige gedragingen ontwikkelen, zelfs bij gebruik van toonaangevende modellen.

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao2026-03-10🤖 cs.LG

TokMem: One-Token Procedural Memory for Large Language Models

Het artikel introduceert TokMem, een procedureel geheugenframework voor grote taalmodellen dat herbruikbare taken compilaat tot één trainbaar geheugentoken, waardoor doelgerichte gedragingen met constante overhead worden bereikt zonder het basismodel aan te passen of contextoverhead te veroorzaken.

Zijun Wu, Yongchang Hao, Lili Mou2026-03-10💬 cs.CL

Stochastic Self-Organization in Multi-Agent Systems

Dit paper introduceert SelfOrg, een zelforganiserend framework voor multi-agent systemen dat dynamische communicatiestructuren genereert op basis van respons-afhankelijke Shapley-waarden om samenwerking te optimaliseren zonder extra supervisie of training.

Nurbek Tastan, Samuel Horvath, Karthik Nandakumar2026-03-10🤖 cs.LG

Automated Extraction of Material Properties using LLM-based AI Agents

Deze studie presenteert een geautomatiseerde, LLM-gestuurde workflow die duizenden wetenschappelijke artikelen analyseert om het grootste tot nu toe bestaande dataset van thermoelektrische eigenschappen en structurele kenmerken te creëren, waarmee de weg vrijgemaakt wordt voor schaalbare, datagedreven materiaalontdekking.

Subham Ghosh, Abhishek Tewari2026-03-10🔬 cond-mat.mtrl-sci

FOR-Prompting: From Objection to Revision via an Asymmetric Prompting Protocol

Dit paper introduceert FOR-Prompting, een asymmetrisch promptprotocol dat zonder extra training de prestaties van taalmodellen verbetert door een Defender, een Debater die kritische vragen stelt zonder directe oplossingen, en een Host te laten samenwerken voor iteratieve zelfherziening.

He Zhang, Anzhou Zhang, Jian Dai2026-03-10💬 cs.CL

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

Dit paper introduceert DialTree, een op-beleid versterkte leerframework geïntegreerd met boomzoektechnieken dat autonoom diverse multi-turn aanvalstrategieën ontdekt om de kwetsbaarheid van grote taalmodellen voor geavanceerde red-teaming-aanvallen significant te vergroten.

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth2026-03-10🤖 cs.LG

An Senegalese Legal Texts Structuration Using LLM-augmented Knowledge Graph

Deze studie toont aan hoe kunstmatige intelligentie en grote taalmodellen kunnen worden ingezet om Senegalese wetteksten, met name de Grond- en Openbaar Domeincode, gestructureerd te maken in een kennisgrafiek, waardoor de toegang tot juridische informatie voor burgers en professionals wordt verbeterd.

Oumar Kane, Mouhamad M. Allaya, Dame Samb + 1 more2026-03-10💬 cs.CL

Idiom Understanding as a Tool to Measure the Dialect Gap

Dit artikel introduceert nieuwe benchmarks voor het meten van het dialectkloof in het Frans door het gebruik van regionale uitdrukkingen, en toont aan dat grote taalmodellen, ondanks hun bekwaamheid in het standaard Frans, significant minder goed presteren op het Quebecse dialect.

David Beauchemin, Yan Tremblay, Mohamed Amine Youssef, Richard Khoury2026-03-10💬 cs.CL

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

Dit paper introduceert NANOMIND, een hardware-software co-design raamwerk dat grote multimodale modellen op batterij-aangedreven apparaten efficiënt uitvoert door modulaire componenten dynamisch toe te wijzen aan de meest geschikte versnellers, wat resulteert in een aanzienlijke verbetering van energie-efficiëntie en doorvoersnelheid zonder netwerkverbinding.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman Banerjee2026-03-10💬 cs.CL

ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall

Dit paper introduceert ACE, een kader voor kennisbewerking dat neuronale attributie gebruikt om de dynamische query-waarde-paden in meervoudige redeneerketens te identificeren en aan te passen, waardoor de prestaties bij het herinneren van meervoudige feiten aanzienlijk verbeteren.

Jiayu Yang, Yuxuan Fan, Songning Lai, Shengen Wu, Jiaqi Tang, Chun Kang, Zhijiang Guo, Yutao Yue2026-03-10💬 cs.CL

R-WoM: Retrieval-augmented World Model For Computer-use Agents

Het artikel introduceert R-WoM, een op retrieval gebaseerde wereldmodel voor computergebruiksagenten die hallucinaties en fouten in langetermijnplanning van grote taalmodellen aanpakt door simulaties te verankeren met feitelijke, actuele kennis uit externe tutorials, wat leidt tot significante prestatieverbeteringen op benchmarks zoals OSWorld en WebArena.

Kai Mei, Jiang Guo, Shuaichen Chang, Mingwen Dong, Dongkyu Lee, Xing Niu, Jiarong Jiang2026-03-10💬 cs.CL

HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

Dit paper introduceert HypoSpace, een diagnostische suite die de creativiteit van taalmodellen evalueert door hun vermogen te meten om diverse, unieke en volledige sets van hypotheses te genereren in onderbepaalde wetenschappelijke scenario's, waarbij wordt aangetoond dat modellen vaak in een 'mode collapse' terechtkomen die door traditionele correctheidsmetingen onopgemerkt blijft.

Tingting Chen, Beibei Lin, Zifeng Yuan, Qiran Zou, Hongyu He, Anirudh Goyal, Yew-Soon Ong, Dianbo Liu2026-03-10💬 cs.CL

KrishokBondhu: A Retrieval-Augmented Voice-Based Agricultural Advisory Call Center for Bengali Farmers

Dit artikel introduceert KrishokBondhu, een stemgebaseerd adviescentrum voor Bengalese boeren in Bangladesh dat gebruikmaakt van Retrieval-Augmented Generation (RAG) en spraaktechnologie om via telefoon real-time, contextbewuste landbouwadviezen te verstrekken.

Mohd Ruhul Ameen, Akif Islam, Farjana Aktar, M. Saifuzzaman Rafat2026-03-10💬 cs.CL

SwiftEmbed: Ultra-Fast Text Embeddings via Static Token Lookup for Real-Time Applications

SwiftEmbed is een in Rust geschreven, productiegerichte systeem dat statische token-lookup gebruikt om ultra-snelle tekstembeddings (1,12 ms p50) te leveren voor real-time toepassingen, waarbij het een uitstekende prestatie behaalt voor duplicaatreductie en semantische gelijkenis, maar minder geschikt is voor complexe classificatietaken.

Edouard Lansiaux, Antoine Simonet, Eric Wiel2026-03-10💬 cs.CL

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

Dit paper introduceert Jr. AI Scientist, een autonoom systeem dat als beginnend onderzoeker werkt om nieuwe wetenschappelijke hypotheses te formuleren en te valideren op basis van bestaande papers, en analyseert zowel de prestaties als de risico's en beperkingen van dergelijke systemen voor de toekomst van de academische gemeenschap.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

← Vorige Volgende →