cs.CL papers | Gist.Science

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

SarcasmMiner is een versterkingsleringsframework voor post-training dat door middel van een dubbel-track distillatiestrategie en een generatieve beloningsmodel de robuustheid van audio-visuele sarcasme-herkenning verbetert door pragmatische incongruïteit op te lossen en hallucinaties te voorkomen.

Zhu Li, Yongjian Chen, Huiyuan Lai + 3 more2026-03-06💬 cs.CL

Knowledge Divergence and the Value of Debate for Scalable Oversight

Dit artikel biedt een formeel raamwerk dat de waarde van AI-debat voor schaalbaar toezicht relateert aan de geometrische kennisdivergentie tussen modellen, waarbij wordt aangetoond dat debat alleen een significant voordeel biedt wanneer de kennis van de deelnemers divergeert in een specifiek lineair regime.

Robin Young2026-03-06🤖 cs.LG

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

In dit artikel wordt WavSLM voorgesteld, een spraaktaalmodel dat via distillatie van WavLM-representaties in een enkele codebook wordt getraind om semantische en akoestische informatie zonder tekstsupervisie in één tokenstroom te modelleren, waardoor het een schaalbaar en coherent generatief paradigma voor spraak mogelijk maakt.

Luca Della Libera, Cem Subakan, Mirco Ravanelli2026-03-06🤖 cs.AI

Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution

Het artikel introduceert Med-V1, een familie van kleine taalmodellen met slechts drie miljard parameters die, getraind op synthetische data, kosteneffectief en nauwkeurig biomedische bewijsattributie en hallucinatie-detectie uitvoert, zelfs in vergelijking met veel grotere frontier-modellen zoals GPT-5.

Qiao Jin, Yin Fang, Lauren He + 12 more2026-03-06🤖 cs.AI

PersianPunc: A Large-Scale Dataset and BERT-Based Approach for Persian Punctuation Restoration

Deze paper introduceert PersianPunc, een groot dataset van 17 miljoen voorbeelden en een efficiënte ParsBERT-gebaseerde methode voor het herstellen van leestekens in het Perzisch, die een hoge nauwkeurigheid bereikt zonder de nadelen van overcorrectie en hoge rekenkosten van grote taalmodellen.

Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery2026-03-06🤖 cs.AI

A Multilingual Human Annotated Corpus of Original and Easy-to-Read Texts to Support Access to Democratic Participatory Processes

Dit paper introduceert een door mensen geannoteerd meertalig corpus met originele en vereenvoudigde teksten in het Spaans, Catalaans en Italiaans om de toegang tot democratische participatieprocessen te ondersteunen en de ontwikkeling van automatische tekstvereenvoudiging voor minder bedreigde talen te bevorderen.

Stefan Bott, Verena Riegler, Horacio Saggion + 2 more2026-03-06💬 cs.CL

Exploring the potential and limitations of Model Merging for Multi-Domain Adaptation in ASR

Dit onderzoek presenteert BoostedTSV-M, een nieuw model-merging-algoritme dat de prestaties van volledige fine-tuning voor meerdomein-ASR in het Europees Portugees overtreft terwijl het tegelijkertijd de generalisatie voor buiten-de-verdeling-data behoudt.

Carlos Carvalho, Francisco Teixeira, Thomas Rolland + 1 more2026-03-06💬 cs.CL

DiSCTT: Consensus-Guided Self-Curriculum for Efficient Test-Time Adaptation in Reasoning

Het paper introduceert DiSCTT, een difficulty-aware en consensus-gestuurd zelf-curriculumkader voor testtijdadaptatie dat door dynamisch te kiezen tussen supervisie en versterkingslering op basis van instantspecifieke onzekerheid, de redeneerprestaties van grote taalmodellen aanzienlijk verbetert met minder rekenkracht en hogere stabiliteit.

Mohammad Mahdi Moradi, Sudhir Mudur2026-03-06💬 cs.CL

Progressive Residual Warmup for Language Model Pretraining

Dit artikel introduceert Progressive Residual Warmup (ProRes), een methode voor het vooraf trainen van taalmodellen die de stabiliteit en convergentie verbetert door de bijdrage van diepere lagen geleidelijk op te bouwen terwijl de eerdere lagen zich eerst stabiliseren.

Tianhao Chen, Xin Xu, Lu Yin + 4 more2026-03-06💬 cs.CL

An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs

Deze studie toont aan dat door middel van een reasoning-georiënteerde fine-tuning-strategie, lage-parameter LLM's (<4B) op het gebied van woordbetekenisdisambiguatie vergelijkbare prestaties kunnen leveren als grote modellen zoals GPT-4-Turbo, terwijl ze aanzienlijk minder rekenkracht en energie vereisen.

Deshan Sumanathilaka, Nicholas Micallef, Julian Hough2026-03-06💬 cs.CL

Dissociating Direct Access from Inference in AI Introspection

Dit onderzoek toont aan dat AI-modellen introspectie via twee gescheiden mechanismen uitoefenen: het afleiden van anomalieën uit de prompt en directe toegang tot interne toestanden, waarbij laatstgenoemde weliswaar anomalieën detecteert maar niet hun semantische inhoud kan identificeren.

Harvey Lederman, Kyle Mahowald2026-03-06🤖 cs.AI

Ensembling Language Models with Sequential Monte Carlo

Deze paper introduceert een unificerend framework en een byte-level Sequential Monte Carlo-algoritme om meerdere taalmodellen met verschillende vocabulaires te combineren in $f$ -ensembles, waardoor er consistent kan worden gesampled uit geaggregeerde verdelingen die superieure prestaties leveren ten opzichte van traditionele gemiddelde waarschijnlijkheidsbenaderingen.

Robin Shing Moon Chan, Tianyu Liu, Samuel Kiegeland + 5 more2026-03-06🤖 cs.AI

Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry

Dit paper introduceert de Distributed Partial Information Puzzle (DPIP) en een bijbehorend multimodaal dataset om de uitdagingen van het modelleren van gemeenschappelijke grond onder epistemische asymmetrie te onderzoeken, waarbij blijkt dat zowel moderne grote taalmodellen als axiomatische benaderingen op basis van dynamische epistemische logica moeite hebben met het nauwkeurig bijhouden van taakvoortgang en geloofsstaten.

Yifan Zhu, Mariah Bradford, Kenneth Lai + 4 more2026-03-06🤖 cs.AI

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

FlashAttention-4 is een nieuwe implementatie die algoritme- en kernel-pipelining co-design combineert om de asymmetrische hardware-schaalbaarheid van Blackwell GPU's (zoals de B200) te benutten, waardoor een tot 2,7× hogere snelheid en tot 71% TFLOP-utilisatie wordt bereikt, terwijl de volledige expressiviteit behouden blijft met 20-30× snellere compilatietijden dankzij een CuTe-DSL in Python.

Ted Zadouri, Markus Hoehnerbach, Jay Shah + 3 more2026-03-06💬 cs.CL

DEBISS: a Corpus of Individual, Semi-structured and Spoken Debates

Dit artikel introduceert DEBISS, een nieuw corpus van gesproken en individuele debatten met semi-gestructureerde kenmerken en uitgebreide NLP-annotaties, dat de huidige schaarste aan debatcorpora in de literatuur wegneemt.

Klaywert Danillo Ferreira de Souza, David Eduardo Pereira, Cláudio E. C. Campelo + 1 more2026-03-06💬 cs.CL

NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance

Deze studie introduceert NCTB-QA, een groot dataset voor vraag-antwoordtaken in het Bengaals met een evenwichtige verdeling van beantwoordbare en onbeantwoordbare vragen uit nationale leerboeken, en toont aan dat domeinspecifieke fine-tuning van transformer-modellen de prestaties aanzienlijk verbetert.

Abrar Eyasir, Tahsin Ahmed, Muhammad Ibrahim2026-03-06💬 cs.CL

Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval

Dit paper introduceert INTRA, een methode die de parametrische kennis van grote taalmodellen benut om claims zonder externe zoekopdrachten te verifiëren en hiermee de prestaties en generalisatie van bestaande fact-checking-systemen verbetert.

Artem Vazhentsev, Maria Marina, Daniil Moskovskiy + 8 more2026-03-06🤖 cs.AI

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

Dit artikel toont aan dat activatieprobing modelovertuigingen kan onthullen die eerder zichtbaar zijn dan de chain-of-thought, waardoor performatief redeneren kan worden onderscheiden van echte redeneerprocessen en adaptieve berekening mogelijk wordt gemaakt.

Siddharth Boppana, Annabel Ma, Max Loeffler + 5 more2026-03-06🤖 cs.AI

Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

Dit onderzoek gebruikt gecensureerde Chinese taalmodellen als natuurlijk testplatform om methoden voor het eliciteren van eerlijke antwoorden en het detecteren van leugens te evalueren, waarbij wordt geconcludeerd dat bepaalde prompts en fine-tuning technieken de waarheidsvinding verbeteren maar geen enkele methode volledig fouten elimineert.

Helena Casademunt, Bartosz Cywiński, Khoi Tran + 3 more2026-03-06🤖 cs.AI

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Dit onderzoek onthult dat de vaak waargenomen samenhang tussen massale activeringen en attentie-zinks in Transformer-modellen voornamelijk een architecturaal artefact is dat wordt veroorzaakt door de pre-norm-configuratie, waarbij deze fenomenen in werkelijkheid verschillende functies vervullen: massale activeringen fungeren als globale, impliciete parameters, terwijl attentie-zinks lokaal de aandacht verstoren en biasen naar korte afhankelijkheden.

Shangwen Sun, Alfredo Canziani, Yann LeCun + 1 more2026-03-06🤖 cs.AI

← Vorige Volgende →