cs.CL papers | Gist.Science

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

MuRating is een schaalbaar raamwerk dat hoogwaardige kwaliteitsindicatoren uit het Engels overbrengt naar een enkel beoordelingsmodel voor 17 talen, waardoor de prestaties van meertalige grote taalmodellen aanzienlijk verbeteren, vooral bij kennisintensieve taken.

Zhixun Chen, Ping Guo, Wenhan Han + 10 more2026-03-06💻 cs

Eka-Eval: An Evaluation Framework for Low-Resource Multilingual Large Language Models

Deze paper introduceert EKA-EVAL, een open-source, modulair evaluatiekader dat een zero-code webinterface en CLI combineert om meer dan 55 meertalige benchmarks voor laag-resource talen in één platform te ondersteunen, met als resultaat aanzienlijk betere bruikbaarheid en reproduceerbaarheid dan bestaande baselines.

Samridhi Raj Sinha, Rajvee Sheth, Abhishek Upperwal + 1 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Dit paper introduceert TreeBench, een diagnostische benchmark voor traceerbaar visueel redeneren, en TreeVGR, een trainingsparadigma dat via versterkingsleer gelokaliseerde bewijsvoering en redenering combineert om de prestaties van multimodale modellen aanzienlijk te verbeteren.

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

Dit artikel introduceert Vevo2, een unificerend en controleerbaar framework dat twee geavanceerde audio-tokenizers en een hybride modelleringstijl combineert om zowel spraak als zang te genereren, waarbij de schaarste aan gelabelde zangdata wordt overwonnen en een sterke generalisatievermogen voor diverse synthesetaken wordt bereikt.

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

How Quantization Shapes Bias in Large Language Models

Deze studie toont aan dat kwantisatie van grote taalmodellen de toxiciteit kan verminderen maar tegelijkertijd stereotypen en onrechtvaardigheid in generatieve taken licht verhoogt, wat de noodzaak benadrukt om efficiëntie en ethische overwegingen zorgvuldig in evenwicht te brengen.

Federico Marcuzzi, Xuefei Ning, Roy Schwartz + 1 more2026-03-06💻 cs

New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR

Deze paper introduceert een nieuw inzicht dat alignatie als detectieprobleem bekijkt en een onbalans-gebaseerd optimal transport-model voorstelt om de overdracht van taalkennis in spraakherkenning te verbeteren door structurele asymmetrieën en ruis effectief te hanteren.

Xugang Lu, Peng Shen, Hisashi Kawai2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Deze paper introduceert TSPC, een tweestapsarchitectuur die op fonemen is gebaseerd en een uitgebreide Vietnamese fonemenset als tussenrepresentatie gebruikt om de woordfoutenratio voor code-switching tussen het Vietnamees en Engels aanzienlijk te verlagen.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

Linguistic trajectories of bipolar disorder on social media

Dit onderzoek toont aan dat socialemediataal longitudinale veranderingen in bipolaire stoornis kan vastleggen, waarbij de diagnose gepaard gaat met brede linguïstische verschuivingen en de daaropvolgende jaren een seizoensgebonden cyclus van 12 maanden vertonen die overeenkomt met stemmingsvariaties.

Laurin Plank, Armin Zlomuzica2026-03-06💻 cs

Llama-Mimi: Exploring the Limits of Flattened Speech Language Modeling

Dit paper introduceert Llama-Mimi, een model dat multi-level RVQ-tokens van de Mimi-codec platlegt tot één sequentie voor autoregressieve modellering met een Transformer-decoder, wat leidt tot superieure prestaties op de meeste taken en de beste akoestische consistentie in vergelijking met hiërarchische modellen.

Issa Sugiura, Shuhei Kurita, Yusuke Oda + 1 more2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

Deze studie toont aan dat LLM-backbones in spraakmodellen vaak faalden in structurele robuustheid vertonen bij conversaties met disfluënties, waarbij redeneringsmodellen systematisch vloeiende inhoud verwijderen ten gunste van semantische abstractie.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

Het paper introduceert BeyondBench, een evaluatieframework dat wiskundig onderbouwde, dynamisch gegenereerde algoritmische problemen gebruikt om taalmodellen op een verontreinigingsvrije manier te testen op hun redeneervermogen, waarbij de resultaten aantonen dat prestaties sterk afnemen naarmate de complexiteit toeneemt.

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi + 5 more2026-03-06💻 cs

Pretraining Large Language Models with NVFP4

Dit paper introduceert een stabiele NVFP4-pretraining-methode voor grote taalmodellen die, na het trainen van een 12 miljard parameter tellend model op 10 biljoen tokens, prestaties bereikt die vergelijkbaar zijn met een FP8-basislijn.

NVIDIA, Felix Abecassis, Anjulie Agrusa + 87 more2026-03-06💻 cs

PrefDisco: Benchmarking Proactive Personalized Reasoning

Dit paper introduceert PrefDisco, een evaluatiemethode en benchmark die statische taken omzet in interactieve scenario's om proactief gepersonaliseerd redeneren te testen, waarbij wordt aangetoond dat grote taalmodellen hierin nog niet vanzelfsprekend slagen en gerichte ontwikkeling vereisen om effectief te kunnen inspelen op individuele gebruikersvoorkeuren.

Shuyue Stella Li, Avinandan Bose, Faeze Brahman + 4 more2026-03-06💻 cs

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

Dit paper introduceert Graph2Eval, een door kennisgrafieken aangedreven framework dat automatisch schaalbare en semantisch consistente multimodale taken genereert voor agenten, wat resulteert in een betrouwbaarder evaluatiebenchmark die hallucinaties en oplosbaarheidsproblemen van eerdere methoden oplost.

Yurun Chen, Xavier Hu, Yuhan Liu + 8 more2026-03-06💻 cs

Beyond Prefixes: Graph-as-Memory Cross-Attention for Knowledge Graph Completion with Large Language Models

Dit artikel introduceert Graph-as-Memory Tuning (GMT), een nieuwe aanpak die lokale kennisgrafiekstructuren comprimeert tot expliciete geheugentokens en deze via diepe cross-attention in LLM's integreert om de prestaties bij het aanvullen van kennisgrafieken aanzienlijk te verbeteren ten opzichte van bestaande prefix-methode.

Ruitong Liu, Boxu Lin, Peize Li + 4 more2026-03-06💻 cs

Detecting Hallucinations in Authentic LLM-Human Interactions

Deze paper introduceert AuthenHallu, het eerste hallucinatie-detectiebenchmark dat volledig is opgebouwd uit authentieke LLM-menselijke interacties om de beperkingen van kunstmatige benchmarks te overwinnen en inzicht te geven in de frequentie en aard van hallucinaties in reële scenario's.

Yujie Ren, Niklas Gruhlke, Anne Lauscher2026-03-06💻 cs

Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences

Dit onderzoek toont aan dat smalle finetuning duidelijke, interpreteerbare sporen achterlaat in de activaties van grote taalmodellen die kunnen worden gebruikt om het trainingsdoel te reconstrueren, maar ook waarschuwt dat dergelijke modellen als proxy voor bredere finetuning-studies onrealistisch kunnen zijn.

Julian Minder, Clément Dumas, Stewart Slocum + 4 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

Dit paper introduceert Grasp Any Region (GAR), een multimodaal groot taalmodel dat door middel van een nieuwe RoI-gealigneerde feature replay-techniek en de GAR-Bench-evaluatie, de beperkingen van eerdere modellen overwint door complexe, contextbewuste regionale interacties en samenstellende redenering mogelijk te maken.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models

Dit paper introduceert EchoMind, het eerste multi-niveau benchmark dat de empathische gespreksvaardigheden van spraaktaalmodellen evalueert door geïntegreerde taken voor tekstbegrip, stemgebruik en redenering te combineren, en onthult dat zelfs geavanceerde modellen moeite hebben met het verwerken van expressieve vocale aanwijzingen voor echte empathie.

Li Zhou, Lutong Yu, You Lyu + 6 more2026-03-06💻 cs

Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

Deze paper introduceert het Open Korean Historical Corpus, een openbaar domein dataset van 1,300 jaar met 17,7 miljoen documenten die diachronische taalkundige verschuivingen analyseert en dient als basis voor het trainen van grote taalmodellen.

Seyoung Song, Nawon Kim, Songeun Chae + 5 more2026-03-06💻 cs

← Vorige Volgende →