cs.CL papers | Gist.Science

TableMind++: An Uncertainty-Aware Programmatic Agent for Tool-Augmented Table Reasoning

Dit paper introduceert TableMind++, een onzekerheidsbewuste programmatische agent die hallucinaties in tabelredenering aanpakt door geheugengestuurde planverfijning, op vertrouwen gebaseerde actieverbetering en dual-gewogen trajectaggregatie te integreren, waardoor het de prestaties van eerdere modellen en propriëtaire systemen overtreft.

Mingyue Cheng, Shuo Yu, Chuang Jiang, Xiaoyu Tao, Qingyang Mao, Jie Ouyang, Qi Liu, Enhong Chen2026-03-10💬 cs.CL

Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data

Het artikel introduceert 'Accent Vector', een methode die het mogelijk maakt om de accentsterkte in meertalige spraak-synthese-systemen nauwkeurig te regelen en gemengde accenten te genereren zonder dat er getrainde data met specifieke accenten nodig is.

Thanathai Lertpetchpun, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan2026-03-10💬 cs.CL

MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

Deze paper introduceert MAWARITH, een groot Arabisch dataset en benchmark voor het evalueren van de redeneercapaciteiten van grote taalmodellen op het gebied van complexe islamitische erfrechtelijke berekeningen, vergezeld van een nieuwe evaluatiemethode (MIR-E) die de nauwkeurigheid van het volledige redeneerproces meet in plaats van alleen het eindantwoord.

Abdessalam Bouchekif, Shahd Gaben, Samer Rashwani, Somaya Eltanbouly, Mutaz Al-Khatib, Heba Sbahi, Mohammed Ghaly, Emad Mohamed2026-03-10💬 cs.CL

Learning-free L2-Accented Speech Generation using Phonological Rules

Deze paper introduceert een leermethode-vrij framework voor het genereren van Engels met een Spaans of Indiaas accent door fonologische regels toe te passen op een meertalige TTS-model, waardoor accenten op phonemisch niveau kunnen worden gemanipuleerd zonder grote datasets.

Thanathai Lertpetchpun, Yoonjeong Lee, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan2026-03-10💬 cs.CL

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

De auteurs presenteren Nwāchā Munā, een nieuw spraakcorpus en benchmark voor de bedreigde Nepal Bhasha-taal, en tonen aan dat effectieve spraakherkenning mogelijk is door middel van computerefficiënte, taalkundig nabije transfer van het Nepalees, in plaats van zware meertalige modellen.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna Bal2026-03-10💬 cs.CL

KCoEvo: A Knowledge Graph Augmented Framework for Evolutionary Code Generation

Dit paper introduceert KCoEvo, een raamwerk dat kennisgrafieken gebruikt om de migratie van verouderde code naar nieuwe API's te verbeteren door het taak te splitsen in het ophalen van evolutiepaden en daarop gebaseerde codegeneratie, wat leidt tot een aanzienlijke stijging in nauwkeurigheid en uitvoeringssucces vergeleken met standaard LLM-baselines.

Jiazhen Kang, Yuchen Lu, Chen Jiang, Jinrui Liu, Tianhao Zhang, Bo Jiang, Ningyuan Sun, Tongtong Wu, Guilin Qi2026-03-10💬 cs.CL

StyleBench: Evaluating Speech Language Models on Conversational Speaking Style Control

Dit paper introduceert StyleBench, een meerfasig dialoogbenchmark voor het systematisch evalueren van de controle over spreekstijlintensiteit (emotie, snelheid, volume en toonhoogte) in spraaktaalmodellen, waarbij prestatiekloven tussen deze modellen en alomvattende taalmodelen worden geanalyseerd.

Haishu Zhao, Aokai Hao, Yuan Ge, Zhenqiang Hong, Tong Xiao, Jingbo Zhu2026-03-10💬 cs.CL

KohakuRAG: A simple RAG framework with hierarchical document indexing

KohakuRAG is een hiërarchisch RAG-framework dat documentstructuur behoudt via een boomrepresentatie, zoekopdrachten verbetert met een LLM-geplande planner en antwoorden stabiliseert door ensemble-inferentie, waarmee het de eerste plaats behaalt op de WattBot 2025 Challenge-benchmark.

Shih-Ying Yeh, Yueh-Feng Ku, Ko-Wei Huang, Buu-Khang Tu2026-03-10💬 cs.CL

Scalable Training of Mixture-of-Experts Models with Megatron Core

Dit paper introduceert Megatron Core, een schaalbaar en productieklaar open-source framework dat geïntegreerde optimalisaties voor geheugen, communicatie en berekening combineert om de training van Mixture-of-Experts-modellen tot triljoenen parameters op duizenden GPU's efficiënt te maken.

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)2026-03-10🤖 cs.LG

Large Language Model for Discrete Optimization Problems: Evaluation and Step-by-step Reasoning

Dit onderzoek evalueert de prestaties van verschillende grote taalmodellen bij het oplossen van discrete optimalisatieproblemen met uitgebreide datasets en concludeert dat sterkere modellen beter presteren, terwijl de Chain-of-Thought-techniek niet altijd effectief is en verstoord data soms de prestaties op eenvoudige problemen kan verbeteren.

Tianhao Qian, Guilin Qi, Z. Y. Wu, Ran Gu, Xuanyi Liu, Canchen Lyu2026-03-10💬 cs.CL

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

Dit paper introduceert 3ViewSense, een raamwerk dat het ruimtelijke intelligentie-gat in Vision-Language Models dicht door ruimtelijk redeneren te grondvesten in orthografische weergaven via een 'Simuleer-en-Redeneer'-mechanisme, wat leidt tot aanzienlijk betere prestaties in complexe ruimtelijke taken zoals het tellen van blokken en het hanteren van verduistering.

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

Whitening Reveals Cluster Commitment as the Geometric Separator of Hallucination Types

Dit paper toont aan dat whitening van embeddings de geometrische scheiding tussen hallucinatietypes onthult, waarbij clustercommitment als het cruciale onderscheidende kenmerk fungeert en de onmogelijkheid om Type 1 en 2 te scheiden wordt toegeschreven aan modelcapaciteit in plaats van meetfouten.

Matic Korun2026-03-10💬 cs.CL

QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis

Dit paper presenteert QuadAI, een ensemble-systeem voor SemEval-2026 dat een hybride RoBERTa-encoder combineert met grote taalmodellen via voorspellingsniveau-ensemble learning om de prestaties bij dimensionele aspectgebaseerde sentimentanalyse aanzienlijk te verbeteren.

A. J. W. de Vink, Filippos Karolos Ventirozos, Natalia Amat-Lefort, Lifeng Han2026-03-10💬 cs.CL

ArcLight: A Lightweight LLM Inference Architecture for Many-Core CPUs

ArcLight is een lichtgewicht architectuur voor LLM-inferentie die speciaal is ontworpen voor many-core CPU's om de prestaties te maximaliseren door de overhead van cross-NUMA-toegang te minimaliseren en zo de doorvoer aanzienlijk te verhogen ten opzichte van bestaande frameworks.

Yuzhuang Xu, Xu Han, Yuxuan Li, Wanxiang Che2026-03-10💬 cs.CL

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

Dit paper introduceert MicroCoder-GRPO, een verbeterde RL-methode met innovaties zoals conditionele truncatie en diversiteitsgestuurde temperatuurkeuze, samen met een uitdagender dataset en robuustere evaluatie, die trainingsbottlenecks voor coderingsmodellen effectief oplost en aanzienlijke prestatieverbeteringen op LiveCodeBench v6 oplevert.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Dit paper introduceert MicroCoder, een zorgvuldig samengesteld dataset van recente en uitdagende programmeerproblemen die via een geautomatiseerd vierstapsverwerkingsframework is gefilterd op moeilijkheidsgraad, en waaruit blijkt dat het trainen van coderingsmodellen hierop leidt tot aanzienlijk betere prestaties op complexe taken vergeleken met bestaande datasets.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context

Deze studie toont aan dat grote taalmodellen in de Nepalese context aanzienlijke sociale vooroordelen vertonen, waarbij impliciete generatieve bias sterk verschilt van expliciete instemming en een niet-lineair verband vertoont met de temperatuurinstelling, wat de noodzaak benadrukt van cultureel onderbouwde evaluatie- en debiasingstrategieën.

Ashish Pandey, Tek Raj Chhetri2026-03-10💬 cs.CL

Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

Deze studie introduceert de AEPC-QA-benchmark om de prestaties van 51 grote taalmodellen te evalueren voor de verzekeringssector in Quebec, waarbij wordt vastgesteld dat redeneervermogen en RAG de nauwkeurigheid aanzienlijk kunnen verbeteren, maar dat contextafleiding en een verrassende superioriteit van algemene modellen boven gespecialiseerde Franse varianten nog steeds een uitdaging vormen voor de autonome inzet.

David Beauchemin, Richard Khoury2026-03-10💬 cs.CL

DistillGuard: Evaluating Defenses Against LLM Knowledge Distillation

Het paper "DistillGuard" introduceert een raamwerk voor het evalueren van verdedigingen tegen kennisdistillatie van LLM's en concludeert dat bestaande output-niveau maatregelen over het algemeen inefficiënt zijn en sterk afhankelijk van de specifieke taak.

Bo Jiang2026-03-10💬 cs.CL

AI Steerability 360: A Toolkit for Steering Large Language Models

Dit paper introduceert AI Steerability 360, een open-source Python-bibliotheek van IBM die een gestandaardiseerde interface biedt om grote taalmodellen via vier controleoppervlakken (invoer, structuur, staat en uitvoer) te sturen en verschillende stuurmethoden eenvoudig te combineren en evalueren.

Erik Miehling, Karthikeyan Natesan Ramamurthy, Praveen Venkateswaran, Irene Ko, Pierre Dognin, Moninder Singh, Tejaswini Pedapati, Avinash Balakrishnan, Matthew Riemer, Dennis Wei, Inge Vejsbjerg, Elizabeth M. Daly, Kush R. Varshney2026-03-10💬 cs.CL

← Vorige Volgende →