cs.CL papers | Gist.Science

High-Fidelity Pruning for Large Language Models

Dit paper introduceert HFPrune, een efficiënte pruning-methode voor grote taalmodellen die de entropie van de modeluitvoer gebruikt om neuronbelang te evalueren zonder een extra leraarmodel, waardoor de prestaties beter behouden blijven dan bij bestaande methoden.

Yijun Zhu, Jianxin Wang, Chengchao Shen2026-03-10💬 cs.CL

Toward Robust LLM-Based Judges: Taxonomic Bias Evaluation and Debiasing Optimization

Dit paper introduceert JudgeBiasBench, een benchmark voor het systematisch evalueren van vooringenomenheid in LLM-gebaseerde beoordelaars, en stelt een bias-aware trainingsmethode voor die deze vooringenomenheid effectief vermindert zonder de algemene evaluatiecapaciteit te schaden.

Hongli Zhou, Hui Huang, Rui Zhang, Kehai Chen, Bing Xu, Conghui Zhu, Tiejun Zhao, Muyun Yang2026-03-10💬 cs.CL

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Dit paper introduceert het DC-W2S-framework, dat door middel van dubbele consensus-metingen en een slimme trainingscurriculum betrouwbare Procesbeloningsmodellen voor biologisch redeneren mogelijk maakt met behulp van ruwe, zwakke supervisie zonder de noodzaak van uitgebreide expertannotatie.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Ramsa: A Large Sociolinguistically Rich Emirati Arabic Speech Corpus for ASR and TTS

Het artikel introduceert Ramsa, een zich ontwikkelende spraakcorpus van 41 uur met Emirati-Arabisch dat rijk is aan sociolinguïstische variatie en bedoeld is om onderzoek en technologieën voor automatisch spraakherkenning en tekst-naar-spraak te ondersteunen, waarbij de prestaties van bestaande modellen als uitgangspunt worden geëvalueerd.

Rania Al-Sabbagh2026-03-10💬 cs.CL

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

Dit paper introduceert EvoScientist, een evoluerend multi-agentkader dat door middel van persistente geheugens en zelfevolutie de kwaliteit van wetenschappelijke ideeën en de succesratio van code-uitvoering verbetert, waardoor het bestaande statische AI-systemen voor end-to-end wetenschappelijke ontdekking overtreft.

Yougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan2026-03-10💬 cs.CL

Gradually Excavating External Knowledge for Implicit Complex Question Answering

Dit paper introduceert een geleidelijk kennisontginningsframework dat grote taalmodellen in staat stelt om via iteratieve acties zoals externe zoekopdrachten en logisch redeneren complexe open-domeinvragen te beantwoorden, wat resulteert in een nieuwe state-of-the-art prestatie op het StrategyQA-dataset met aanzienlijk minder parameters dan concurrenten.

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL

Gender Bias in MT for a Genderless Language: New Benchmarks for Basque

Dit onderzoek introduceert twee nieuwe benchmarks om genderbias in machinevertalingen voor het genderneutrale Baskisch te evalueren, waarbij wordt aangetoond dat modellen systematisch de voorkeur geven aan mannelijke vormen en dat er behoefte is aan evaluatiemethoden die zowel linguïstische als culturele context in acht nemen.

Amaia Murillo, Olatz-Perez-de-Viñaspre, Naiara Perez2026-03-10💬 cs.CL

RexDrug: Reliable Multi-Drug Combination Extraction through Reasoning-Enhanced LLMs

Dit paper introduceert RexDrug, een betrouwbaar framework dat grote taalmodellen met een redeneringsversterkende aanpak gebruikt om complexe, n-ary medicijncombinaties uit biomedische literatuur nauwkeurig te extraheren.

Zhijun Wang, Ling Luo, Dinghao Pan, Huan Zhuang, Lejing Yu, Yuanyuan Sun, Hongfei Lin2026-03-10💬 cs.CL

Is continuous CoT better suited for multi-lingual reasoning?

Dit onderzoek toont aan dat continu redeneren in een latente ruimte, in tegenstelling tot expliciete Chain-of-Thought, aanzienlijk robuustere en efficiëntere meertalige redeneercapaciteiten biedt, vooral voor taakgebieden met beperkte bronnen en in zero-shot scenario's.

Ali Hamza Bashir, Behzad Shomali, Markus Frey, Mehdi Ali, Rafet Sifa, David Berghaus2026-03-10🤖 cs.LG

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

Dit artikel introduceert TildeOpen LLM, een open-weight foundation model met 30 miljard parameters dat door middel van curriculum learning en data-oversampling is getraind om de prestaties en taalevenwicht voor 34 Europese talen, met name minder gebruikte talen, aanzienlijk te verbeteren zonder extra rekencapaciteit.

Toms Bergmanis, Martins Kronis, Ingus J\=anis Pretkalninš, D\=avis Nicmanis, Jelizaveta Jelinska, Roberts Rozis, Rinalds V\=iksna, M\=arcis Pinnis2026-03-10💬 cs.CL

Supporting Workflow Reproducibility by Linking Bioinformatics Tools across Papers and Executable Code

Dit paper introduceert CoPaLink, een geautomatiseerde aanpak die bio-informatica-tools in werkstroomcode koppelt aan hun vermeldingen in wetenschappelijke artikelen om reproduceerbaarheid en transparantie te verbeteren.

Clémence Sebe, Olivier Ferret, Aurélie Névéol, Mahdi Esmailoghli, Ulf Leser, Sarah Cohen-Boulakia2026-03-10💬 cs.CL

The Conundrum of Trustworthy Research on Attacking Personally Identifiable Information Removal Techniques

Dit artikel betoogt dat de huidige evaluaties van aanvallen op PII-verwijeringstechnieken door datalekken en contaminatie vertekend zijn, en dat het gebrek aan toegang tot echte privédata het publieke onderzoek verhindert om de werkelijke privacybescherming van deze methoden betrouwbaar te verifiëren.

Sebastian Ochs, Ivan Habernal2026-03-10💬 cs.CL

DualTurn: Learning Turn-Taking from Dual-Channel Generative Speech Pretraining

DualTurn is een model dat door middel van generatieve pretraining op dubbelkanaals spraak natuurlijke wisselgesprekken leert en zo de onnatuurlijke stilte-tijdouten van traditionele spraakpijplijnen overbrugt door continue anticipatie op wisselpunten en het genereren van agent-acties.

Shangeth Rajaa2026-03-10💬 cs.CL

Quantifying Cross-Lingual Transfer in Paralinguistic Speech Tasks

Deze studie introduceert de Cross-Lingual Transfer Matrix (CLTM) om systematisch te kwantificeren hoe donor-taaldata de prestaties van paralinguïstische taken, zoals geslachtsidentificatie en sprekerverificatie, beïnvloedt bij cross-linguale overdracht, waarbij blijkt dat deze effecten systematisch en taalspecifiek zijn.

Pol Buitrago, Oriol Pareras, Federico Costa, Javier Hernando2026-03-10💬 cs.CL

Fibration Policy Optimization

Dit paper introduceert Fibration Policy Optimization (FiberPO), een unificerend framework dat trust-region theorie en een algebraïsche fibratiestructuur combineert om multi-schaal stabiliteitscontrole en verbeterde token-efficiëntie te bieden voor de optimalisatie van grote taalmodellen.

Chang Li, Tshihao Tsu, Yaren Zhang, Chao Xue, Xiaodong He2026-03-10🤖 cs.LG

Sensivity of LLMs' Explanations to the Training Randomness:Context, Class & Task Dependencies

Dit artikel toont aan dat de uitleg van transformermodellen statistisch significant beïnvloed wordt door trainingsrandomness, waarbij de taak de grootste invloed heeft, gevolgd door de klassen en ten slotte de context.

Romain Loncour, Jérémie Bogaert, François-Xavier Standaert2026-03-10💬 cs.CL

Bootstrapping Audiovisual Speech Recognition in Zero-AV-Resource Scenarios with Synthetic Visual Data

Dit paper introduceert een framework voor audiovisuele spraakherkenning in talen zonder bestaande video-corpora door gebruik te maken van synthetische visuele data gegenereerd via lip-syncing, wat resulteert in een model dat presteert op het niveau van de state-of-the-art met aanzienlijk minder trainingsdata.

Pol Buitrago, Pol Gàlvez, Oriol Pareras, Javier Hernando2026-03-10💬 cs.CL

Not All Queries Need Deep Thought: CoFiCot for Adaptive Coarse-to-fine Stateful Refinement

Dit paper introduceert CoFiCot, een adaptief framework dat de testtijd-berekening van LLM's optimaliseert door query's dynamisch te triageren op basis van moeilijkheidsgraad en vervolgens een stateful correctiecyclus toe te passen die granulaire foutlocatie combineert met globale logische coherentie.

Dongxu Zhang, Hongqiang Lin, Yiding Sun, Pengyu Wang, Qirui Wang, Ning Yang, Jihua Zhu2026-03-10💬 cs.CL

NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating

Dit artikel presenteert de NCL-UoR-bijdrage aan SemEval-2026 Taak 5, waarbij wordt aangetoond dat gestructureerde promptontwerpen met expliciete besluitregels voor grote taalmodellen de beste prestaties leveren bij het beoordelen van de plausibiliteit van woordbetekenissen, en dat promptontwerp belangrijker is dan modelgrootte.

Tong Wu, Thanet Markchom, Huizhi Liang2026-03-10💬 cs.CL

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

Deze studie, gebaseerd op een evaluatie van 172 miljard tokens, onthult dat hallucinaties in documentgebaseerde vragenbeantwoording aanzienlijk toenemen bij langere contextvensters en dat modelkeuze de belangrijkste factor is, terwijl hardwareplatforms en temperatuur-instellingen slechts een beperkt effect hebben op de nauwkeurigheid.

JV Roig2026-03-10💬 cs.CL

← Vorige Volgende →