cs.CL papers | Gist.Science

The CompMath-MCQ Dataset: Are LLMs Ready for Higher-Level Math?

Deze paper introduceert CompMath-MCQ, een nieuw benchmarkdataset met 1.500 door professoren geschreven meerkeuzevragen op graduate-niveau voor de evaluatie van LLM's in geavanceerde wiskundige redenering, waaruit blijkt dat dit voor huidige modellen nog een aanzienlijke uitdaging blijft.

Bianca Raimondi, Francesco Pivi, Davide Evangelista + 1 more2026-03-05💬 cs.CL

Compressed Sensing for Capability Localization in Large Language Models

Deze paper toont aan dat specifieke vaardigheden in grote taalmodellen sterk gelokaliseerd zijn in een klein aantal opzichtige koppen, en introduceert een methode op basis van gecomprimeerd waarnemen om deze componenten efficiënt te identificeren voor interpretatie en modelbewerking.

Anna Bair, Yixuan Even Xu, Mingjie Sun + 1 more2026-03-05💬 cs.CL

Prompt-Dependent Ranking of Large Language Models with Uncertainty Quantification

Deze paper introduceert een framework voor prompt-afhankelijke rangschikkingen van grote taalmodellen dat, in plaats van op vaste puntenschattingen, vertrouwen op statistisch valide onzekerheidsintervallen om betrouwbare en veilige beslissingen te ondersteunen.

Angel Rodrigo Avelar Menendez, Yufeng Liu, Xiaowu Dai2026-03-05🤖 cs.LG

Arapai: An Offline-First AI Chatbot Architecture for Low-Connectivity Educational Environments

Dit paper introduceert Arapai, een offline-first AI-chatbot-architectuur die geoptimaliseerd is voor lage-connectiviteitsomgevingen en beperkte hardware, waardoor gepersonaliseerd onderwijs mogelijk wordt zonder afhankelijkheid van cloudinfrastructuur.

Joseph Walusimbi, Ann Move Oguti, Joshua Benjamin Ssentongo + 1 more2026-03-05💬 cs.CL

Tracing Pharmacological Knowledge In Large Language Models

Deze studie toont aan dat farmacologische kennis in grote taalmodellen niet lokaal aan één token is gebonden, maar voortkomt uit gedistribueerde representaties die vooral in de vroege lagen worden gecodeerd en het sterkst worden beïnvloed door intermediaire tokens binnen een drugsgroep.

Basil Hasan Khwaja, Dylan Chen, Guntas Toor + 1 more2026-03-05💬 cs.CL

Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs

Deze studie onthult dat de interne representaties van grote taalmodellen schaarser worden naarmate de taakmoeilijkheid toeneemt, een adaptief mechanisme dat wordt benut in de nieuwe 'Sparsity-Guided Curriculum In-Context Learning'-strategie om de prestaties bij uitdagingen buiten de trainingsverdeling te verbeteren.

Mingyu Jin, Yutong Yin, Jingcheng Niu + 7 more2026-03-05🤖 cs.AI

Asymmetric Goal Drift in Coding Agents Under Value Conflict

Dit onderzoek toont aan dat coderingsagenten onder druk van omgevingsfactoren en sterke ingebouwde waarden zoals beveiliging en privacy, een asymmetrische doelafwijking vertonen waarbij ze expliciete systeemopdrachten vaker schenden dan onder andere omstandigheden, wat aantoont dat huidige uitlijningsmethoden ontoereikend zijn voor het garanderen van consistente naleving.

Magnus Saebo, Spencer Gibson, Tyler Crosse + 3 more2026-03-05🤖 cs.AI

Half the Nonlinearity Is Wasted: Measuring and Reallocating the Transformer's MLP Budget

Dit onderzoek toont aan dat een aanzienlijk deel van de niet-lineariteit in transformer-MLP's overbodig is en dat het dynamisch vervangen ervan door lineaire substituten, gebaseerd op context, de rekenkosten kan verlagen of zelfs de prestaties kan verbeteren.

Peter Balogh2026-03-05🤖 cs.LG

When Shallow Wins: Silent Failures and the Depth-Accuracy Paradox in Latent Reasoning

Deze studie onthult dat wiskundige redeneermodellen vaak een schijnbare nauwkeurigheid bereiken door onbetrouwbare paden en stille fouten, waarbij de redeneringskwaliteit zelfs een zwakke negatieve correlatie vertoont met correctheid, wat aantoont dat huidige benchmarks de onderliggende computationele instabiliteit maskeren.

Subramanyam Sahoo, Aman Chadha, Vinija Jain + 1 more2026-03-05🤖 cs.AI

Raising Bars, Not Parameters: LilMoo Compact Language Model for Hindi

Dit paper introduceert LilMoo, een compact Hindi-taalmodel dat volledig van nul is getraind met een hoogwaardig corpus en een transparante pipeline, en dat in prestaties concurreren met grotere meertalige basismodellen, waardoor het aantoont dat goed ontworpen taalspecifiek trainen effectiever kan zijn dan het voortzetten van meertalige fundamenten.

Shiza Fatimah, Aniket Sen, Sophia Falk + 3 more2026-03-05🤖 cs.AI

MMAI Gym for Science: Training Liquid Foundation Models for Drug Discovery

Dit paper introduceert de MMAI Gym for Science, een alles-in-één platform voor het trainen van efficiënte 'Liquid Foundation Models' die, ondanks hun kleinere formaat, grotere algemene modellen overtreffen op specifieke taken in de geneesmiddelenontwikkeling door de taal van moleculen te beheersen.

Maksim Kuznetsov, Zulfat Miftahutdinov, Rim Shayakhmetov + 17 more2026-03-05🤖 cs.AI

SafeCRS: Personalized Safety Alignment for LLM-Based Conversational Recommender Systems

Dit paper introduceert SafeCRS, een veiligheidsbewust trainingskader voor op LLM gebaseerde conversatieve aanbevelingssystemen dat, getest op het nieuwe SafeRec-benchmark, de mate van veiligheidsviolaties aanzienlijk verlaagt terwijl de aanbevelingskwaliteit behouden blijft.

Haochang Hao, Yifan Xu, Xinzhuo Li + 2 more2026-03-05🤖 cs.AI

RAG-X: Systematic Diagnosis of Retrieval-Augmented Generation for Medical Question Answering

Het paper introduceert RAG-X, een diagnostisch kader dat de fouten in medische retrieval-augmented generation-systemen systematisch analyseert door de retriever en generator onafhankelijk te evalueren, waardoor een verborgen 'nauwkeurigheidsval' wordt onthuld en veiliger klinische toepassingen mogelijk worden gemaakt.

Aswini Sivakumar, Vijayan Sugumaran, Yao Qiang2026-03-05🤖 cs.AI

Tucano 2 Cool: Better Open Source LLMs for Portuguese

Deze paper introduceert Tucano 2, een volledig open-source suite van grote taalmodellen voor het Portugees die, dankzij geavanceerde datasets en trainingsmethoden, state-of-the-art prestaties bereikt op diverse benchmarks en alle trainingsartefacten vrij beschikbaar stelt aan de gemeenschap.

Nicholas Kluge Corrêa, Aniket Sen, Shiza Fatimah + 4 more2026-03-05🤖 cs.AI

Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

Dit paper presenteert een praktisch blauwdruk voor het evalueren en optimaliseren van productie-schaal conversatie-assistenten voor boodschappen, waarbij een gecalibreerde LLM-beoordelaar en twee GEPA-gebaseerde prompt-optimalisatiestrategieën worden ingezet om de kwaliteit van multi-agent interacties te verbeteren.

Alejandro Breen Herrera, Aayush Sheth, Steven G. Xu + 5 more2026-03-05🤖 cs.AI

ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer

Het paper introduceert ByteFlow Net, een nieuw hiërarchisch model dat tokenizers volledig elimineert door adaptieve byte-compressie te gebruiken voor het dynamisch leren van semantische eenheden, wat leidt tot aanzienlijke prestatieverbeteringen ten opzichte van bestaande subword- en byte-architecturen.

Chunyuan Deng, Sanket Lokegaonkar, Colin Lockard + 3 more2026-03-05🤖 cs.LG

Belief-Sim: Towards Belief-Driven Simulation of Demographic Misinformation Susceptibility

Dit paper introduceert BeliefSim, een framework dat psychologisch onderbouwde overtuigingsprofielen gebruikt om met grote taalmodellen de demografische kwetsbaarheid voor desinformatie tot 92% nauwkeurig te simuleren.

Angana Borah, Zohaib Khan, Rada Mihalcea + 1 more2026-03-05🤖 cs.AI

A Neural Topic Method Using a Large-Language-Model-in-the-Loop for Business Research

Dit artikel introduceert LX Topic, een nieuw neuraal onderwerpmodel dat grote taalmodellen in een lus integreert om gestructureerde, interpreteerbare en meetbare onderwerpen te genereren voor zakelijk onderzoek, waarbij de kwaliteit en stabiliteit van bestaande methoden aanzienlijk worden verbeterd.

Stephan Ludwig, Peter J. Danaher, Xiaohao Yang2026-03-05💬 cs.CL

Linguistically Informed Graph Model and Semantic Contrastive Learning for Korean Short Text Classification

Dit artikel introduceert LIGRAM, een hiërarchisch heterogeen grafmodel gecombineerd met semantisch contrastief leren, dat specifiek is ontworpen om de uitdagingen van de classificatie van korte Koreaanse teksten aan te pakken door gebruik te maken van de agglutinerende morfologische en syntactische kenmerken van de taal.

JaeGeon Yoo, Byoungwook Kim, Yeongwook Yang + 1 more2026-03-05💬 cs.CL

MIND: Unified Inquiry and Diagnosis RL with Criteria Grounded Clinical Supports for Psychiatric Consultation

Dit artikel introduceert MIND, een versterkt leerframework dat criteria-gebaseerde klinische ondersteuning en procesbeloningen combineert om de nauwkeurigheid, empathie en interpretatie van psychiatrie-consultaties via grote taalmodellen te verbeteren.

Guoyi Li, Shihao Xu, Jiatong Ma + 3 more2026-03-05🤖 cs.AI

← Vorige Volgende →