cs.CL papers | Gist.Science

LEDOM: Reverse Language Model

Dit paper introduceert LEDOM, een open-source taalmodel dat van rechts naar links wordt getraind en unieke redeneerpatronen ontwikkelt die, wanneer gecombineerd met een standaard model via een 'Reverse Reward'-mechanisme, de prestaties op wiskundige taken aanzienlijk verbeteren door hallucinaties te straffen.

Xunjian Yin, Sitao Cheng, Yuxi Xie + 6 more2026-03-04💬 cs.CL

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

Dit paper introduceert Skywork-Reward-V2, een reeks state-of-the-art beloningsmodellen die zijn getraind op het SynPref-40M-dataset van 40 miljoen voorkeursparen, waarbij een mens-AI synergie-pipeline wordt gebruikt om de kwaliteit en schaal van datacuratie te maximaliseren en zo de prestaties op diverse benchmarks aanzienlijk te verbeteren.

Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao + 9 more2026-03-04💬 cs.CL

Psychometric Item Validation Using Virtual Respondents with Trait-Response Mediators

Dit artikel introduceert een kostenefficiënt framework dat virtuele respondenten met diverse trait-response-mediators simuleert om de constructvaliditeit van psychometrische items voor grote taalmodellen te valideren, waardoor de noodzaak van dure menselijke datacollectie wordt verminderd.

Sungjib Lim, Woojung Song, Eun-Ju Lee + 1 more2026-03-04💬 cs.CL

Not All Errors Are Created Equal: ASCoT Addresses Late-Stage Fragility in Efficient LLM Reasoning

Dit paper introduceert ASCoT, een methode die de onopgemerkte 'late-stage fragility' in LLM-redenering aanpakt door middels adaptieve verificatie en zelfcorrectie de rekenkracht efficiënter in te zetten, wat resulteert in een aanzienlijke reductie van tokenverbruik met minimaal verlies aan nauwkeurigheid.

Dongxu Zhang, Yujun Wu, Yiding Sun + 5 more2026-03-04💬 cs.CL

Link Prediction for Event Logs in the Process Industry

Dit artikel presenteert een record-linking-model dat cross-document coreferentieoplossing combineert met natuurlijke taal-inferentie en semantische tekstgelijkenis om gefragmenteerde gebeurtenislogboeken in de Duitse procesindustrie te verbinden, waardoor de kwaliteit van data voor graph-based RAG-toepassingen aanzienlijk verbetert.

Anastasia Zhukova, Thomas Walton, Christian E. Lobmüller + 1 more2026-03-04💬 cs.CL

No Text Needed: Forecasting MT Quality and Inequity from Fertility and Metadata

Deze studie toont aan dat de vertaalkwaliteit van GPT-4o voor 203 talen opvallend nauwkeurig kan worden voorspeld zonder daadwerkelijke vertaling, uitsluitend op basis van tokenvruchtbaarheid, tokenaantallen en linguïstische metadata.

Jessica M. Lundin, Ada Zhang, David Adelani + 1 more2026-03-04💬 cs.CL

The Token Tax: Systematic Bias in Multilingual Tokenization

Deze studie toont aan dat inefficiënt tokenisatie, gemeten aan de hand van vruchtbaarheid, systematisch de prestaties van grote taalmodellen in Afrikaanse talen ondermijnt en aanzienlijke rekenkosten veroorzaakt, wat dringende maatregelen voor eerlijke tokenisatie en prijsstelling vereist.

Jessica M. Lundin, Ada Zhang, Nihal Karim + 4 more2026-03-04💬 cs.CL

No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes

Dit onderzoek toont aan dat lineaire probes, die worden getraind op de activaties van grote taalmodellen direct na het lezen van een vraag maar voor het genereren van een antwoord, de nauwkeurigheid van het toekomstige antwoord en het zelfvertrouwen van het model kunnen voorspellen, hoewel deze generalisatie beperkt blijft bij wiskundige redenering.

Iván Vicente Moreno Cencerrado, Arnau Padrés Masdemont, Anton Gonzalvez Hawthorne + 2 more2026-03-04💬 cs.CL

Prior-based Noisy Text Data Filtering: Fast and Strong Alternative For Perplexity

Deze paper introduceert een snelle en krachtige prior-gebaseerde methode voor het filteren van ruis in tekstgegevens, die zonder modelinference de prestaties van perplexity-gebaseerde filtering overtreft en de rekentijd met meer dan 1000 keer reduceert.

Yeongbin Seo, Gayoung Kim, Jaehyung Kim + 1 more2026-03-04💬 cs.CL

Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers

Dit paper introduceert een theoretisch raamwerk voor asymptotisch optimale beschrijvingslengte-objectieven voor Transformers, gebaseerd op Kolmogorov-complexiteit, en toont aan dat variatiele objectives weliswaar lage-complexiteit oplossingen met sterke generalisatie selecteren, maar dat standaard optimalisatie methoden moeite hebben om deze te vinden.

Peter Shaw, James Cohan, Jacob Eisenstein + 1 more2026-03-04💬 cs.CL

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Deze paper analyseert theoretisch en empirisch hoe versterkingsleer de planningsvaardigheden van taalmodellen verbetert door exploratie, maar waarschuwt voor valkuilen zoals diversiteitsineenstorting bij policy gradient en Q-waarde-bias, terwijl Q-leren juist voordelen biedt qua off-policy learning en diversiteitsbehoud.

Siwei Wang, Yifei Shen, Haoran Sun + 5 more2026-03-04📊 stat

Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

Dit onderzoek toont aan dat n-gram-nieuwheid als enige maatstaf voor tekstuele creativiteit ontoereikend is, omdat het de essentie van creativiteit (nieuwheid én geschiktheid) niet volledig vangt en bij AI-gegenereerde teksten vaak correleert met een gebrek aan pragmatiek, waardoor menselijke evaluatie of geavanceerde LLM-judges noodzakelijk zijn voor een nauwkeurige beoordeling.

Arkadiy Saakyan, Najoung Kim, Smaranda Muresan + 1 more2026-03-04💬 cs.CL

ManagerBench: Evaluating the Safety-Pragmatism Trade-off in Autonomous LLMs

Dit paper introduceert ManagerBench, een benchmark die de veiligheids-pragmatisme afweging evalueert in autonome LLM's en aantoont dat frontier-modellen vaak falen in het kiezen van veilige opties wanneer deze conflicteren met operationele doelen, niet door een gebrek aan harm-herkenning maar door een tekortkoming in prioritering.

Adi Simhi, Jonathan Herzig, Martin Tutek + 3 more2026-03-04💬 cs.CL

AccurateRAG: A Framework for Building Accurate Retrieval-Augmented Question-Answering Applications

Dit paper introduceert AccurateRAG, een nieuw framework dat een efficiënte ontwikkelingspijplijn biedt voor het bouwen van nauwkeurige retrieval-augmented generation (RAG)-toepassingen en nieuwe state-of-the-art resultaten bereikt op benchmark datasets.

Linh The Nguyen, Chi Tran, Dung Ngoc Nguyen + 3 more2026-03-04💬 cs.CL

Cache-to-Cache: Direct Semantic Communication Between Large Language Models

Dit paper introduceert Cache-to-Cache (C2C), een nieuw paradigma dat grote taalmodellen in staat stelt om via hun KV-cache direct semantische informatie uit te wisselen in plaats van via tekst, wat leidt tot hogere nauwkeurigheid en een aanzienlijke snelheidswinst.

Tianyu Fu, Zihan Min, Hanling Zhang + 4 more2026-03-04💬 cs.CL

LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning

Dit paper introduceert LaDiR, een nieuw redeneringskader dat bestaande grote taalmodellen combineert met variatie-gecodeerde latente ruimtes en diffusiemodellen om het autoregressieve proces te overwinnen en zo holistische, iteratieve verbetering en diverse redeneertrajecten mogelijk te maken voor wiskundige en planningsopdrachten.

Haoqiang Kang, Yizhe Zhang, Nikki Lijing Kuang + 4 more2026-03-04💬 cs.CL

Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

Deze paper introduceert Energy Landscape Steering (ELS), een fine-tuning-vrij framework dat tijdens de inferentie de interne activaties van taalmodellen dynamisch stuurt via een energie-landschap om overmatige weigeringen van onschadelijke verzoeken te verminderen zonder de veiligheid te compromitteren.

Eric Hanchen Jiang, Weixuan Ou, Run Liu + 8 more2026-03-04📊 stat

Are Language Models Borrowing-Blind? A Multilingual Evaluation of Loanword Identification across 10 Languages

Dit onderzoek toont aan dat taalmodellen, ondanks instructies en context, moeite hebben om leenwoorden in tien verschillende talen te onderscheiden van inheemse woorden, wat wijst op een vooringenomenheid ten opzichte van leenwoorden en implicaties heeft voor NLP-toepassingen in minderheidstalen.

Mérilin Sousa Silva, Sina Ahmadi2026-03-04💬 cs.CL

STARS: Synchronous Token Alignment for Robust Supervision in Large Language Models

Dit paper introduceert STARS, een decodeer-algoritme dat LLM's veiliger maakt door synchronisatie op vaste intervallen te forceren, waardoor het de beperkingen van onzekerheidsgebaseerde methoden overwint en zowel betere foutdetectie als hogere systeem-efficiëntie biedt.

Mohammad Atif Quamar, Mohammad Areeb, Mikhail Kuznetsov + 2 more2026-03-04💬 cs.CL

Are We Asking the Right Questions? On Ambiguity in Natural Language Queries for Tabular Data Analysis

Dit paper presenteert een raamwerk dat ambiguïteit in natuurlijke taalqueries voor tabulair data-analyse herdefinieert als een kenmerk van samenwerking tussen gebruiker en systeem, waarmee het huidige evaluatiemethoden bekritiseert en richtlijnen voor toekomstig onderzoek biedt.

Daniel Gomm, Cornelius Wolff, Madelon Hulsebos2026-03-04💬 cs.CL

← Vorige Volgende →