cs.CL papers | Gist.Science

Dissecting Chronos: Sparse Autoencoders Reveal Causal Feature Hierarchies in Time Series Foundation Models

Dit paper presenteert de eerste toepassing van sparse autoencoders op het tijdreeks-foundationmodel Chronos-T5, waarbij wordt aangetoond dat causaal kritieke kenmerken zich bevinden in de middenlagen die abrupte dynamiek detecteren, in plaats van in de semantisch rijkste laatste laag.

Anurag Mishra2026-03-12🤖 cs.LG

CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

Het CLIPO-papier introduceert een contrastief leermethode binnen beleidsoptimalisatie die het RLVR-framework generaliseert door de consistentie van tussenstappen te waarborgen, waardoor hallucinaties worden onderdrukt en de robuustheid en generalisatie van redenerende grote taalmodellen aanzienlijk worden verbeterd.

Sijia Cui, Pengyu Cheng, Jiajun Song, Yongbo Gai, Guojun Zhang, Zhechao Yu, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang2026-03-12🤖 cs.LG

Lost in the Middle at Birth: An Exact Theory of Transformer Position Bias

Dit artikel toont aan dat het "Lost in the Middle"-fenomeen een inherente geometrische eigenschap is van de architectuur van causal decoders die al bij initialisatie aanwezig is, ongeacht training of positiële encoding, en wordt veroorzaakt door de interactie tussen causale masking en residual connections.

Borun D Chowdhury2026-03-12🤖 cs.LG

The Prediction-Measurement Gap: Toward Meaning Representations as Scientific Instruments

Dit artikel pleit voor een verschuiving van voorspellingsgerichte naar wetenschappelijk bruikbare taalembeddings die, gebaseerd op cognitieve inzichten, prioriteit geven aan meetbaarheid, interpreteerbaarheid en robustheid om betekenis als een betrouwbaar wetenschappelijk instrument te benutten.

Hubert Plisiecki2026-03-12💬 cs.CL

The Generation-Recognition Asymmetry: Six Dimensions of a Fundamental Divide in Formal Language Theory

Dit artikel identificeert zes onafhankelijke dimensies waarin generatie en herkenning binnen de formele taaltheorie fundamenteel verschillen, weerlegt het simplistische idee dat generatie altijd makkelijk is, en verbindt deze asymmetrie met concepten als verrassing (surprisal) en de operationele beperkingen van grote taalmodellen.

Romain Peyrichou2026-03-12💬 cs.CL

Reason and Verify: A Framework for Faithful Retrieval-Augmented Generation

Dit paper introduceert een betrouwbaar Retrieval-Augmented Generation-framework dat expliciete redenering en verifiëring integreert om hallucinaties in biomedische vraagbeantwoording te verminderen, wat resulteert in verbeterde nauwkeurigheid en transparantie op benchmarks zoals BioASQ en PubMedQA.

Eeham Khan, Luis Rodriguez, Marc Queudot2026-03-12💬 cs.CL

Lost in Backpropagation: The LM Head is a Gradient Bottleneck

Dit artikel toont aan dat de taallmodelhoofd (LM head) een gradiëntbottleneck vormt waarbij 95-99% van de gradiëntnorm wordt onderdrukt door de dimensieverschil tussen de features en het vocabulaire, wat leidt tot suboptimale trainingsdynamiek en de noodzaak van nieuwe ontwerpen.

Nathan Godey, Yoav Artzi2026-03-12💬 cs.CL

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

Dit paper introduceert ReMix, een nieuwe routeringsmethode voor Mixture-of-LoRAs die het probleem van onbalans in leerbare routingsgewichten oplost door niet-leerbare gewichten te combineren met een onbevooroordeelde gradiëntschatter op basis van reinforcement learning, wat leidt tot een aanzienlijk betere prestatie dan bestaande parameter-efficiënte finetuning-methoden.

Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong2026-03-12🤖 cs.LG

OpenClaw-RL: Train Any Agent Simply by Talking

OpenClaw-RL is een framework dat agenten in staat stelt om via live interactie te leren door zowel evaluatieve als richtgevende signalen uit volgende toestanden te halen, waardoor dezelfde policy effectief kan worden getraind op uiteenlopende taken zoals persoonlijke gesprekken, terminal-uitvoeringen en GUI-interacties.

Yinjie Wang, Xuyang Chen, Xiaolong Jin, Mengdi Wang, Ling Yang2026-03-12💬 cs.CL

Calibration-Reasoning Framework for Descriptive Speech Quality Assessment

Deze paper introduceert een kalibratie-redeneringsframework dat een Audio Large Language Model middels een kalibratiefase en versterkingslering (GRPO) optimaliseert voor het nauwkeurig analyseren, lokaliseren en beschrijven van meerdimensionale spraakkwaliteit en artefacten.

Elizaveta Kostenok, Mathieu Salzmann, Milos Cernak2026-03-12⚡ eess

Video-Based Reward Modeling for Computer-Use Agents

Dit paper introduceert ExeVRM, een model-agnostisch reward model dat op basis van uitvoervideo's en gebruikersinstructies de succesvolheid van computergebruiksagenten evalueert en hiermee state-of-the-art prestaties behaalt die zelfs proprietary modellen als GPT-5.2 en Gemini-3 Pro overtreffen.

Linxin Song, Jieyu Zhang, Huanxin Sheng, Taiwei Shi, Gupta Rahul, Yang Liu, Ranjay Krishna, Jian Kang, Jieyu Zhao2026-03-12💬 cs.CL

Adaptive Activation Cancellation for Hallucination Mitigation in Large Language Models

Dit paper introduceert Adaptive Activation Cancellation (AAC), een real-time inferentieframework dat hallucinaties in grote taalmodellen effectief onderdrukt door deze te behandelen als gestructureerde interferentie, waardoor de feitelijke nauwkeurigheid op alle geteste schalen verbetert zonder enige afname in de algemene prestaties of vloeiendheid.

Eric Yocam, Varghese Vaidyan, Gurcan Comert, Paris Kalathas, Yong Wang, Judith L. Mwakalonge2026-03-12💬 cs.CL

ViDia2Std: A Parallel Corpus and Methods for Low-Resource Vietnamese Dialect-to-Standard Translation

Dit paper introduceert ViDia2Std, het eerste handmatig geannoteerde parallelle corpus voor het vertalen van alle 63 Vietnamese provinciedialecten naar Standaard-Vietnamees, en toont aan dat dialectnormalisatie de prestaties van downstream NLP-taken aanzienlijk verbetert.

Khoa Anh Ta, Nguyen Van Dinh, Kiet Van Nguyen2026-03-12💬 cs.CL

Sabiá-4 Technical Report

Dit technische rapport introduceert Sabi'a-4 en Sabiazinho-4, een nieuwe generatie taalmodellen die specifiek zijn getraind op Braziliaans-Portugese juridische data en lange context, en die uitstekende prestaties leveren op het gebied van juridisch schrijven, dialoogkwaliteit en agentische taken tegen een gunstige prijs-kwaliteitverhouding.

Thiago Laitz, Thales Sales Almeida, Hugo Abonizio, Roseval Malaquias Junior, Giovana Kerche Bonás, Marcos Piau, Celio Larcher, Ramon Pires, Rodrigo Nogueira2026-03-12💬 cs.CL

S-GRADES -- Studying Generalization of Student Response Assessments in Diverse Evaluative Settings

Dit paper introduceert S-GRADES, een open-source webbenchmark die veertien diverse datasets voor het beoordelen van studentenantwoorden (van essays tot korte antwoorden) consolideert om de generalisatie en betrouwbaarheid van grote taalmodellen in verschillende evaluatiesettingen te bestuderen.

Tasfia Seuti, Sagnik Ray Choudhury2026-03-12💬 cs.CL

GR-SAP: Generative Replay for Safety Alignment Preservation during Fine-Tuning

Het paper introduceert GR-SAP, een kader dat generatieve replay gebruikt om veilige uitlijning van grote taalmodellen te behouden tijdens fine-tuning door synthetische uitlijningsdata te genereren, waardoor de noodzaak van toegang tot de oorspronkelijke uitlijningsdata wordt weggenomen.

Zhouxiang Fang, Jiawei Zhou, Hanjie Chen2026-03-12💬 cs.CL

Is this Idea Novel? An Automated Benchmark for Judgment of Research Ideas

Deze paper introduceert RINoBench, het eerste uitgebreide benchmark voor de evaluatie van geautomatiseerde systemen die onderzoeksideeën beoordelen op originaliteit, en onthult dat hoewel grote taalmodellen menselijke redeneringen nabootsen, hun feitelijke beoordelingen van originaliteit significant afwijken van menselijke expertoordelen.

Tim Schopf, Michael Färber2026-03-12💬 cs.CL

Large language models can disambiguate opioid slang on social media

Dit onderzoek toont aan dat grote taalmodellen (LLMs) slangtermen voor opioïden op sociale media effectiever kunnen ontwarren en gerelateerde berichten kunnen identificeren dan traditionele lexicon-methoden, waardoor de monitoring van de opioïden-crisis aanzienlijk kan worden verbeterd.

Kristy A. Carpenter, Issah A. Samori, Mathew V. Kiang, Keith Humphreys, Anna Lembke, Johannes C. Eichstaedt, Russ B. Altman2026-03-12💬 cs.CL

Mitigating Translationese Bias in Multilingual LLM-as-a-Judge via Disentangled Information Bottleneck

Dit paper introduceert DIBJudge, een robuust fijn-tuningkader dat gebruikmaakt van een gedesintegreerd informatie-flesnek om de systematische vertaalbias in meertalige LLMs te mitigeren door spurious correlaties te isoleren en te onderdrukken.

Hongbin Zhang, Kehai Chen, Xuefen Bai, Youcheng Pan, Yang Xiang, Jinpeng Wang, Min Zhang2026-03-12💬 cs.CL

Dynamic Knowledge Fusion for Multi-Domain Dialogue State Tracking

Dit paper introduceert een dynamisch kennisfusieframework dat contrastief leren en gestructureerde slotinformatie combineert om de prestaties en generalisatie van multi-domein dialoogstatus-tracking te verbeteren ondanks beperkte annotatie en complexe dialogen.

Haoxiang Su, Ruiyu Fang, Liting Jiang, Xiaomeng Huang, Shuangyong Song2026-03-12💬 cs.CL

← Vorige Volgende →