cs.CL papers | Gist.Science

EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements

Deze paper introduceert EDINET-Bench, een open-source benchmark voor Japanse financiële rapporten die aantoont dat zelfs geavanceerde grote taalmodellen moeite hebben met complexe financiële taken zoals fraudeopsporing en dat er behoefte is aan realistischere evaluatiekaders met gespecialiseerde ondersteuning.

Issa Sugiura, Takashi Ishida, Taro Makino + 4 more2026-03-06💻 cs

Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

Deze studie toont aan dat Reinforcement Fine-Tuning (RFT) multimodale taalmodellen beter in staat stelt om voorkennis te behouden dan Supervised Fine-Tuning (SFT), omdat RFT voornamelijk correcte steekproeven versterkt die beter aansluiten bij het bestaande waarschijnlijkheidslandschap, waardoor de negatieve impact van trainingsdata op eerder geleerde kennis wordt geminimaliseerd.

Zhihao Zhang, Qiaole Dong, Qi Zhang + 12 more2026-03-06💻 cs

La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

Dit paper introduceert La Leaderboard, het eerste open-source platform dat generatieve grote taalmodellen evalueert op basis van de linguïstische en culturele diversiteit van het Spaans, inclusief variëteiten uit Spanje en Latijns-Amerika en talen zoals Baskisch, Catalaans en Galicisch.

María Grandury, Javier Aula-Blasco, Júlia Falcão + 22 more2026-03-06💻 cs

MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining

MuRating is een schaalbaar raamwerk dat hoogwaardige kwaliteitsindicatoren uit het Engels overbrengt naar een enkel beoordelingsmodel voor 17 talen, waardoor de prestaties van meertalige grote taalmodellen aanzienlijk verbeteren, vooral bij kennisintensieve taken.

Zhixun Chen, Ping Guo, Wenhan Han + 10 more2026-03-06💻 cs

Eka-Eval: An Evaluation Framework for Low-Resource Multilingual Large Language Models

Deze paper introduceert EKA-EVAL, een open-source, modulair evaluatiekader dat een zero-code webinterface en CLI combineert om meer dan 55 meertalige benchmarks voor laag-resource talen in één platform te ondersteunen, met als resultaat aanzienlijk betere bruikbaarheid en reproduceerbaarheid dan bestaande baselines.

Samridhi Raj Sinha, Rajvee Sheth, Abhishek Upperwal + 1 more2026-03-06💻 cs

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

Dit paper introduceert TreeBench, een diagnostische benchmark voor traceerbaar visueel redeneren, en TreeVGR, een trainingsparadigma dat via versterkingsleer gelokaliseerde bewijsvoering en redenering combineert om de prestaties van multimodale modellen aanzienlijk te verbeteren.

Haochen Wang, Xiangtai Li, Zilong Huang + 9 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

Dit artikel introduceert Vevo2, een unificerend en controleerbaar framework dat twee geavanceerde audio-tokenizers en een hybride modelleringstijl combineert om zowel spraak als zang te genereren, waarbij de schaarste aan gelabelde zangdata wordt overwonnen en een sterke generalisatievermogen voor diverse synthesetaken wordt bereikt.

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

How Quantization Shapes Bias in Large Language Models

Deze studie toont aan dat kwantisatie van grote taalmodellen de toxiciteit kan verminderen maar tegelijkertijd stereotypen en onrechtvaardigheid in generatieve taken licht verhoogt, wat de noodzaak benadrukt om efficiëntie en ethische overwegingen zorgvuldig in evenwicht te brengen.

Federico Marcuzzi, Xuefei Ning, Roy Schwartz + 1 more2026-03-06💻 cs

New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR

Deze paper introduceert een nieuw inzicht dat alignatie als detectieprobleem bekijkt en een onbalans-gebaseerd optimal transport-model voorstelt om de overdracht van taalkennis in spraakherkenning te verbeteren door structurele asymmetrieën en ruis effectief te hanteren.

Xugang Lu, Peng Shen, Hisashi Kawai2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Deze paper introduceert TSPC, een tweestapsarchitectuur die op fonemen is gebaseerd en een uitgebreide Vietnamese fonemenset als tussenrepresentatie gebruikt om de woordfoutenratio voor code-switching tussen het Vietnamees en Engels aanzienlijk te verlagen.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

Linguistic trajectories of bipolar disorder on social media

Dit onderzoek toont aan dat socialemediataal longitudinale veranderingen in bipolaire stoornis kan vastleggen, waarbij de diagnose gepaard gaat met brede linguïstische verschuivingen en de daaropvolgende jaren een seizoensgebonden cyclus van 12 maanden vertonen die overeenkomt met stemmingsvariaties.

Laurin Plank, Armin Zlomuzica2026-03-06💻 cs

Llama-Mimi: Exploring the Limits of Flattened Speech Language Modeling

Dit paper introduceert Llama-Mimi, een model dat multi-level RVQ-tokens van de Mimi-codec platlegt tot één sequentie voor autoregressieve modellering met een Transformer-decoder, wat leidt tot superieure prestaties op de meeste taken en de beste akoestische consistentie in vergelijking met hiërarchische modellen.

Issa Sugiura, Shuhei Kurita, Yusuke Oda + 1 more2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

Deze studie toont aan dat LLM-backbones in spraakmodellen vaak faalden in structurele robuustheid vertonen bij conversaties met disfluënties, waarbij redeneringsmodellen systematisch vloeiende inhoud verwijderen ten gunste van semantische abstractie.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

BeyondBench: Contamination-Resistant Evaluation of Reasoning in Language Models

Het paper introduceert BeyondBench, een evaluatieframework dat wiskundig onderbouwde, dynamisch gegenereerde algoritmische problemen gebruikt om taalmodellen op een verontreinigingsvrije manier te testen op hun redeneervermogen, waarbij de resultaten aantonen dat prestaties sterk afnemen naarmate de complexiteit toeneemt.

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi + 5 more2026-03-06💻 cs

Pretraining Large Language Models with NVFP4

Dit paper introduceert een stabiele NVFP4-pretraining-methode voor grote taalmodellen die, na het trainen van een 12 miljard parameter tellend model op 10 biljoen tokens, prestaties bereikt die vergelijkbaar zijn met een FP8-basislijn.

NVIDIA, Felix Abecassis, Anjulie Agrusa + 87 more2026-03-06💻 cs

PrefDisco: Benchmarking Proactive Personalized Reasoning

Dit paper introduceert PrefDisco, een evaluatiemethode en benchmark die statische taken omzet in interactieve scenario's om proactief gepersonaliseerd redeneren te testen, waarbij wordt aangetoond dat grote taalmodellen hierin nog niet vanzelfsprekend slagen en gerichte ontwikkeling vereisen om effectief te kunnen inspelen op individuele gebruikersvoorkeuren.

Shuyue Stella Li, Avinandan Bose, Faeze Brahman + 4 more2026-03-06💻 cs

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

Dit paper introduceert Graph2Eval, een door kennisgrafieken aangedreven framework dat automatisch schaalbare en semantisch consistente multimodale taken genereert voor agenten, wat resulteert in een betrouwbaarder evaluatiebenchmark die hallucinaties en oplosbaarheidsproblemen van eerdere methoden oplost.

Yurun Chen, Xavier Hu, Yuhan Liu + 8 more2026-03-06💻 cs

Beyond Prefixes: Graph-as-Memory Cross-Attention for Knowledge Graph Completion with Large Language Models

Dit artikel introduceert Graph-as-Memory Tuning (GMT), een nieuwe aanpak die lokale kennisgrafiekstructuren comprimeert tot expliciete geheugentokens en deze via diepe cross-attention in LLM's integreert om de prestaties bij het aanvullen van kennisgrafieken aanzienlijk te verbeteren ten opzichte van bestaande prefix-methode.

Ruitong Liu, Boxu Lin, Peize Li + 4 more2026-03-06💻 cs

Detecting Hallucinations in Authentic LLM-Human Interactions

Deze paper introduceert AuthenHallu, het eerste hallucinatie-detectiebenchmark dat volledig is opgebouwd uit authentieke LLM-menselijke interacties om de beperkingen van kunstmatige benchmarks te overwinnen en inzicht te geven in de frequentie en aard van hallucinaties in reële scenario's.

Yujie Ren, Niklas Gruhlke, Anne Lauscher2026-03-06💻 cs

Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences

Dit onderzoek toont aan dat smalle finetuning duidelijke, interpreteerbare sporen achterlaat in de activaties van grote taalmodellen die kunnen worden gebruikt om het trainingsdoel te reconstrueren, maar ook waarschuwt dat dergelijke modellen als proxy voor bredere finetuning-studies onrealistisch kunnen zijn.

Julian Minder, Clément Dumas, Stewart Slocum + 4 more2026-03-06💻 cs

← Vorige Volgende →