cs.CL papers | Gist.Science

Pretraining Large Language Models with NVFP4

Dit paper introduceert een stabiele NVFP4-pretraining-methode voor grote taalmodellen die, na het trainen van een 12 miljard parameter tellend model op 10 biljoen tokens, prestaties bereikt die vergelijkbaar zijn met een FP8-basislijn.

NVIDIA, Felix Abecassis, Anjulie Agrusa + 87 more2026-03-06💻 cs

PrefDisco: Benchmarking Proactive Personalized Reasoning

Dit paper introduceert PrefDisco, een evaluatiemethode en benchmark die statische taken omzet in interactieve scenario's om proactief gepersonaliseerd redeneren te testen, waarbij wordt aangetoond dat grote taalmodellen hierin nog niet vanzelfsprekend slagen en gerichte ontwikkeling vereisen om effectief te kunnen inspelen op individuele gebruikersvoorkeuren.

Shuyue Stella Li, Avinandan Bose, Faeze Brahman + 4 more2026-03-06💻 cs

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

Dit paper introduceert Graph2Eval, een door kennisgrafieken aangedreven framework dat automatisch schaalbare en semantisch consistente multimodale taken genereert voor agenten, wat resulteert in een betrouwbaarder evaluatiebenchmark die hallucinaties en oplosbaarheidsproblemen van eerdere methoden oplost.

Yurun Chen, Xavier Hu, Yuhan Liu + 8 more2026-03-06💻 cs

Beyond Prefixes: Graph-as-Memory Cross-Attention for Knowledge Graph Completion with Large Language Models

Dit artikel introduceert Graph-as-Memory Tuning (GMT), een nieuwe aanpak die lokale kennisgrafiekstructuren comprimeert tot expliciete geheugentokens en deze via diepe cross-attention in LLM's integreert om de prestaties bij het aanvullen van kennisgrafieken aanzienlijk te verbeteren ten opzichte van bestaande prefix-methode.

Ruitong Liu, Boxu Lin, Peize Li + 4 more2026-03-06💻 cs

Detecting Hallucinations in Authentic LLM-Human Interactions

Deze paper introduceert AuthenHallu, het eerste hallucinatie-detectiebenchmark dat volledig is opgebouwd uit authentieke LLM-menselijke interacties om de beperkingen van kunstmatige benchmarks te overwinnen en inzicht te geven in de frequentie en aard van hallucinaties in reële scenario's.

Yujie Ren, Niklas Gruhlke, Anne Lauscher2026-03-06💻 cs

Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences

Dit onderzoek toont aan dat smalle finetuning duidelijke, interpreteerbare sporen achterlaat in de activaties van grote taalmodellen die kunnen worden gebruikt om het trainingsdoel te reconstrueren, maar ook waarschuwt dat dergelijke modellen als proxy voor bredere finetuning-studies onrealistisch kunnen zijn.

Julian Minder, Clément Dumas, Stewart Slocum + 4 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

Dit paper introduceert Grasp Any Region (GAR), een multimodaal groot taalmodel dat door middel van een nieuwe RoI-gealigneerde feature replay-techniek en de GAR-Bench-evaluatie, de beperkingen van eerdere modellen overwint door complexe, contextbewuste regionale interacties en samenstellende redenering mogelijk te maken.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models

Dit paper introduceert EchoMind, het eerste multi-niveau benchmark dat de empathische gespreksvaardigheden van spraaktaalmodellen evalueert door geïntegreerde taken voor tekstbegrip, stemgebruik en redenering te combineren, en onthult dat zelfs geavanceerde modellen moeite hebben met het verwerken van expressieve vocale aanwijzingen voor echte empathie.

Li Zhou, Lutong Yu, You Lyu + 6 more2026-03-06💻 cs

Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts

Deze paper introduceert het Open Korean Historical Corpus, een openbaar domein dataset van 1,300 jaar met 17,7 miljoen documenten die diachronische taalkundige verschuivingen analyseert en dient als basis voor het trainen van grote taalmodellen.

Seyoung Song, Nawon Kim, Songeun Chae + 5 more2026-03-06💻 cs

Steering Awareness: Models Can Be Trained to Detect Activation Steering

Dit onderzoek toont aan dat taalmodellen kunnen worden getraind om activatiesturing te detecteren en de toegevoegde concepten te identificeren, wat impliceert dat dergelijke ingrepen niet onopgemerkt blijven en dat detectie zelfs de kwetsbaarheid voor sturing kan vergroten.

Joshua Fonseca Rivera, David Demitri Africa2026-03-06💻 cs

Think-While-Generating: On-the-Fly Reasoning for Personalized Long-Form Generation

Dit paper introduceert FlyThinker, een efficiënt kader dat gelijktijdig redeneren en genereren mogelijk maakt om gepersonaliseerde lange teksten te produceren door een apart redeneringsmodel te gebruiken dat dynamische token-niveau-instructies genereert zonder de trainings- of inferentie-efficiëntie te compromitteren.

Chengbing Wang, Yang Zhang, Wenjie Wang + 4 more2026-03-06💻 cs

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Het paper introduceert ReFusion, een nieuw gemaskerd diffusiemodel dat door het combineren van sequentiereorganisatie met causale attentie en het verschuiven van parallelle decoding naar het slotniveau, zowel de inferentiesnelheid aanzienlijk verhoogt als de prestaties van autoregressieve modellen benadert.

Jia-Nan Li, Jian Guan, Wei Wu + 1 more2026-03-06💻 cs

RePo: Language Models with Context Re-Positioning

Het paper introduceert RePo, een nieuw mechanisme dat de extrinsieke cognitieve belasting in Large Language Models verlaagt door token-posities dynamisch te herschikken op basis van contextuele afhankelijkheden in plaats van een vaste lineaire volgorde, wat leidt tot verbeterde prestaties bij taken met ruis, gestructureerde data en lange contexten.

Huayang Li, Tianyu Zhao, Deng Cai + 1 more2026-03-06💻 cs

MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers

Dit paper introduceert MCP-SafetyBench, een uitgebreide benchmark op basis van echte MCP-servers die de kwetsbaarheid van grote taalmodellen voor veiligheidsrisico's in realistische multi-stap workflows blootlegt en de noodzaak van betere verdedigingsmechanismes benadrukt.

Xuanjun Zong, Zhiqi Shen, Lei Wang + 2 more2026-03-06💻 cs

From Word to World: Can Large Language Models be Implicit Text-based World Models?

Dit onderzoek toont aan dat grote taalmodellen in tekstuele omgevingen kunnen fungeren als impliciete wereldmodellen die agentenprestaties verbeteren, mits er voldoende gedragsdekking en complexiteit is om de betrouwbaarheid en schaalbaarheid te waarborgen.

Yixia Li, Hongru Wang, Jiahao Qiu + 7 more2026-03-06💻 cs

Parallel Token Prediction for Language Models

Dit paper introduceert Parallel Token Prediction (PTP), een raamwerk dat de snelheid van autoregressieve taalmodellen aanzienlijk verhoogt door meerdere tokens in één doorloop te voorspellen via het verschuiven van de bron van willekeur naar invoervariabelen, wat resulteert in een 2,4-voudige versnelling.

Felix Draxler, Justus Will, Farrin Marouf Sofian + 3 more2026-03-06💻 cs

When Do Tools and Planning Help Large Language Models Think? A Cost- and Latency-Aware Benchmark

Deze studie toont aan dat hoewel planning en tools de prestaties van grote taalmodellen bij complexe feitelijke vragen kunnen verbeteren, ze vaak leiden tot aanzienlijke vertragingen en kostenstijgingen zonder consistente winst bij andere taken, wat benadrukt dat de keuze voor modelgrootte en agentcomplexiteit taalspecifiek en kostenbewust moet zijn.

Subha Ghoshal, Ali Al-Bustami2026-03-06💻 cs

Identifying Good and Bad Neurons for Task-Level Controllable LLMs

Dit paper introduceert NeuronLLM, een nieuw raamwerk dat het biologische principe van functionele antagonisme toepast om zowel 'goede' als 'slechte' neuronen in grote taalmodellen te identificeren via contrastief leren, waardoor een holistisch begrip van taakniveau-controle wordt bereikt dat fortuïtous gedrag minimaliseert en de prestaties van bestaande methoden overtreft.

Wenjie Li, Guansong Pang, Hezhe Qiao + 2 more2026-03-06💻 cs

F-Actor: Controllable Conversational Behaviour in Full-Duplex Models

Dit paper introduceert F-Actor, het eerste open instructievolgende full-duplex conversatiemodel dat efficiënt kan worden getraind met beperkte middelen en expliciete instructies kan volgen om stem, onderwerp en gespreksdynamiek zoals onderbrekingen en feedback te controleren.

Maike Züfle, Ondrej Klejch, Nicholas Sanders + 3 more2026-03-06💻 cs

The unreasonable effectiveness of pattern matching

Dit paper toont aan dat grote taalmodellen door middel van patroonherkenning betekenis kunnen afleiden uit 'Jabberwocky'-teksten, wat aantoont dat patroonherkenning een essentieel onderdeel is van echte intelligentie en niet slechts een alternatief daarvoor.

Gary Lupyan, Blaise Agüera y Arcas2026-03-06💻 cs

← Vorige Volgende →