cs.CL papers | Gist.Science

DiSCTT: Consensus-Guided Self-Curriculum for Efficient Test-Time Adaptation in Reasoning

Het paper introduceert DiSCTT, een difficulty-aware en consensus-gestuurd zelf-curriculumkader voor testtijdadaptatie dat door dynamisch te kiezen tussen supervisie en versterkingslering op basis van instantspecifieke onzekerheid, de redeneerprestaties van grote taalmodellen aanzienlijk verbetert met minder rekenkracht en hogere stabiliteit.

Mohammad Mahdi Moradi, Sudhir Mudur2026-03-06💬 cs.CL

Progressive Residual Warmup for Language Model Pretraining

Dit artikel introduceert Progressive Residual Warmup (ProRes), een methode voor het vooraf trainen van taalmodellen die de stabiliteit en convergentie verbetert door de bijdrage van diepere lagen geleidelijk op te bouwen terwijl de eerdere lagen zich eerst stabiliseren.

Tianhao Chen, Xin Xu, Lu Yin + 4 more2026-03-06💬 cs.CL

An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs

Deze studie toont aan dat door middel van een reasoning-georiënteerde fine-tuning-strategie, lage-parameter LLM's (<4B) op het gebied van woordbetekenisdisambiguatie vergelijkbare prestaties kunnen leveren als grote modellen zoals GPT-4-Turbo, terwijl ze aanzienlijk minder rekenkracht en energie vereisen.

Deshan Sumanathilaka, Nicholas Micallef, Julian Hough2026-03-06💬 cs.CL

Dissociating Direct Access from Inference in AI Introspection

Dit onderzoek toont aan dat AI-modellen introspectie via twee gescheiden mechanismen uitoefenen: het afleiden van anomalieën uit de prompt en directe toegang tot interne toestanden, waarbij laatstgenoemde weliswaar anomalieën detecteert maar niet hun semantische inhoud kan identificeren.

Harvey Lederman, Kyle Mahowald2026-03-06🤖 cs.AI

Ensembling Language Models with Sequential Monte Carlo

Deze paper introduceert een unificerend framework en een byte-level Sequential Monte Carlo-algoritme om meerdere taalmodellen met verschillende vocabulaires te combineren in $f$ -ensembles, waardoor er consistent kan worden gesampled uit geaggregeerde verdelingen die superieure prestaties leveren ten opzichte van traditionele gemiddelde waarschijnlijkheidsbenaderingen.

Robin Shing Moon Chan, Tianyu Liu, Samuel Kiegeland + 5 more2026-03-06🤖 cs.AI

Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry

Dit paper introduceert de Distributed Partial Information Puzzle (DPIP) en een bijbehorend multimodaal dataset om de uitdagingen van het modelleren van gemeenschappelijke grond onder epistemische asymmetrie te onderzoeken, waarbij blijkt dat zowel moderne grote taalmodellen als axiomatische benaderingen op basis van dynamische epistemische logica moeite hebben met het nauwkeurig bijhouden van taakvoortgang en geloofsstaten.

Yifan Zhu, Mariah Bradford, Kenneth Lai + 4 more2026-03-06🤖 cs.AI

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

FlashAttention-4 is een nieuwe implementatie die algoritme- en kernel-pipelining co-design combineert om de asymmetrische hardware-schaalbaarheid van Blackwell GPU's (zoals de B200) te benutten, waardoor een tot 2,7× hogere snelheid en tot 71% TFLOP-utilisatie wordt bereikt, terwijl de volledige expressiviteit behouden blijft met 20-30× snellere compilatietijden dankzij een CuTe-DSL in Python.

Ted Zadouri, Markus Hoehnerbach, Jay Shah + 3 more2026-03-06💬 cs.CL

DEBISS: a Corpus of Individual, Semi-structured and Spoken Debates

Dit artikel introduceert DEBISS, een nieuw corpus van gesproken en individuele debatten met semi-gestructureerde kenmerken en uitgebreide NLP-annotaties, dat de huidige schaarste aan debatcorpora in de literatuur wegneemt.

Klaywert Danillo Ferreira de Souza, David Eduardo Pereira, Cláudio E. C. Campelo + 1 more2026-03-06💬 cs.CL

NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance

Deze studie introduceert NCTB-QA, een groot dataset voor vraag-antwoordtaken in het Bengaals met een evenwichtige verdeling van beantwoordbare en onbeantwoordbare vragen uit nationale leerboeken, en toont aan dat domeinspecifieke fine-tuning van transformer-modellen de prestaties aanzienlijk verbetert.

Abrar Eyasir, Tahsin Ahmed, Muhammad Ibrahim2026-03-06💬 cs.CL

Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval

Dit paper introduceert INTRA, een methode die de parametrische kennis van grote taalmodellen benut om claims zonder externe zoekopdrachten te verifiëren en hiermee de prestaties en generalisatie van bestaande fact-checking-systemen verbetert.

Artem Vazhentsev, Maria Marina, Daniil Moskovskiy + 8 more2026-03-06🤖 cs.AI

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

Dit artikel toont aan dat activatieprobing modelovertuigingen kan onthullen die eerder zichtbaar zijn dan de chain-of-thought, waardoor performatief redeneren kan worden onderscheiden van echte redeneerprocessen en adaptieve berekening mogelijk wordt gemaakt.

Siddharth Boppana, Annabel Ma, Max Loeffler + 5 more2026-03-06🤖 cs.AI

Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

Dit onderzoek gebruikt gecensureerde Chinese taalmodellen als natuurlijk testplatform om methoden voor het eliciteren van eerlijke antwoorden en het detecteren van leugens te evalueren, waarbij wordt geconcludeerd dat bepaalde prompts en fine-tuning technieken de waarheidsvinding verbeteren maar geen enkele methode volledig fouten elimineert.

Helena Casademunt, Bartosz Cywiński, Khoi Tran + 3 more2026-03-06🤖 cs.AI

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Dit onderzoek onthult dat de vaak waargenomen samenhang tussen massale activeringen en attentie-zinks in Transformer-modellen voornamelijk een architecturaal artefact is dat wordt veroorzaakt door de pre-norm-configuratie, waarbij deze fenomenen in werkelijkheid verschillende functies vervullen: massale activeringen fungeren als globale, impliciete parameters, terwijl attentie-zinks lokaal de aandacht verstoren en biasen naar korte afhankelijkheden.

Shangwen Sun, Alfredo Canziani, Yann LeCun + 1 more2026-03-06🤖 cs.AI

POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

Het artikel introduceert POET-X, een geheugenefficiënte en schaalbare variant van de POET-methode die de stabiliteit behoudt en het trainen van miljarden-parameter grote taalmodellen op één enkele GPU mogelijk maakt, terwijl standaardmethoden zoals AdamW hierbij vastlopen.

Zeju Qiu, Lixin Liu, Adrian Weller + 2 more2026-03-06🤖 cs.AI

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

Dit paper introduceert een nieuwe methode voor open-vocabulaire geïntegreerde segmentatie van gecamoufleerde objecten door gebruik te maken van text-naar-beeld diffusiemodellen om multi-schaal tekstuele en visuele kenmerken te combineren, waardoor objecten die zich vermommen in hun omgeving toch effectief kunnen worden geïdentificeerd.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

RAEE: A Robust Retrieval-Augmented Early Exit Framework for Efficient Inference

Dit artikel introduceert RAEE, een robuust framework dat de inferentie-efficiëntie van grote taalmodellen verbetert door het gebruik van een retrieval-gedreven vroege exit-mechanisme dat niet alleen de rekentijd verlaagt, maar ook de prestaties op zero-shot taken verbetert.

Lianming Huang, Shangyu Wu, Yufei Cui + 6 more2026-03-05💬 cs.CL

Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph

Dit onderzoek presenteert een innovatief systeem dat Large Language Models combineert met de ANU Scholarly Knowledge Graph via een Deep Document Model en geoptimaliseerde queryverwerking om nauwkeurig en efficiënt semantische vragen over computernetwerkbewerkingen aan de ANU te beantwoorden.

Runsong Jia, Bowen Zhang, Sergio J. Rodríguez Méndez + 1 more2026-03-05🤖 cs.AI

Manipulating language models' training data to study syntactic constraint learning: the case of English passivization

Deze studie toont aan dat taalmodellen, door het manipuleren van hun trainingsdata, leren dat de passiviseerbaarheid van werkwoorden in het Engels zowel door frequentie (verankering) als door semantiek (aangedaanheid) wordt bepaald, wat aantoont dat dergelijke uitzonderingen op algemene grammaticale patronen uit linguïstische input kunnen worden afgeleid.

Cara Su-Yi Leong, Tal Linzen2026-03-05💬 cs.CL

LMUnit: Fine-grained Evaluation with Natural Language Unit Tests

Dit paper introduceert LMUnit, een nieuw evaluatieparadigma dat taalmodelresponsen beoordeelt via natuurlijke taal-eenheidstests en een unificerend scoremodel, wat leidt tot betere menselijke overeenstemming en state-of-the-art prestaties op evaluatiebatterijen.

Jon Saad-Falcon, Rajan Vivek, William Berrios + 6 more2026-03-05🤖 cs.AI

Preference Leakage: A Contamination Problem in LLM-as-a-judge

Dit paper identificeert en analyseert 'preferentielekage', een besmettingsprobleem waarbij LLM-judges onbewust vooroordelen vertonen ten opzichte van door hen zelf of verwante modellen gegenereerde trainingsdata, wat leidt tot een systematische vertekening in evaluaties.

Dawei Li, Renliang Sun, Yue Huang + 6 more2026-03-05🤖 cs.AI

← Vorige Volgende →