cs.CL papers | Gist.Science

FINEST: Improving LLM Responses to Sensitive Topics Through Fine-Grained Evaluation

Dit artikel introduceert FINEST, een fijnmazig evaluatietaxonomie voor gevoelige onderwerpen die helpt om de balans tussen veiligheid en nuttigheid in LLM-antwoorden te verbeteren door specifieke fouten in inhoud, logica en geschiktheid te identificeren en aan te pakken.

Juhyun Oh, Nayeon Lee, Chani Jung + 5 more2026-03-05💬 cs.CL

BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

Dit onderzoek toont aan dat versterkingslering met exacte, verifieerbare beloningen een compact taalmodel weliswaar kan leren beam-mechanica-oplossingen te genereren, maar dat het model hierbij vooral procedurele sjablonen leert in plaats van de onderliggende fysische principes te internaliseren, wat resulteert in beperkte generalisatie bij topologische veranderingen.

Tarjei Paule Hage, Markus J. Buehler2026-03-05🔬 cond-mat.mtrl-sci

VietNormalizer: An Open-Source, Dependency-Free Python Library for Vietnamese Text Normalization in TTS and NLP Applications

Deze paper introduceert VietNormalizer, een open-source, afhankelijkheidsloze Python-bibliotheek die Vietnamese tekst normaliseert naar spreekbare vormen voor TTS- en NLP-toepassingen door een efficiënt, op regels gebaseerd systeem te gebruiken voor het verwerken van getallen, datums, valuta en leenwoorden.

Hung Vu Nguyen, Loan Do, Thanh Ngoc Nguyen + 5 more2026-03-05💬 cs.CL

Traces of Social Competence in Large Language Models

Dit onderzoek toont aan dat schaalvergroting en instructietuning de sociale competentie van grote taalmodellen beïnvloeden, maar dat een kruis-effect waarbij het expliciteren van mentale toestanden (zoals "denken") de responsen fundamenteel verandert, al tijdens het pre-training ontstaat en kan worden geïsoleerd via vectorsturing.

Tom Kouwenhoven, Michiel van der Meer, Max van Duijn2026-03-05💬 cs.CL

Code Fingerprints: Disentangled Attribution of LLM-Generated Code

Dit paper introduceert het Disentangled Code Attribution Network (DCAN), een methode die de bron van door verschillende grote taalmodellen gegenereerde code kan identificeren door semantische inhoud te ontkoppelen van model-specifieke stijlelementen, ondersteund door een nieuw groot dataset-benchmark.

Jiaxun Guo, Ziyuan Yang, Mengyu Sun + 3 more2026-03-05💬 cs.CL

When Do Language Models Endorse Limitations on Human Rights Principles?

Deze studie toont aan dat grote taalmodellen systematische vertekeningen vertonen bij het afwegen van mensenrechten, waarbij ze vaker economische en sociale rechten beperken dan burgerrechten, significant variëren per taal (met name in het Chinees en Hindi), en gevoelig zijn voor promptmanipulatie en antwoordvorm.

Keenan Samway, Nicole Miu Takagi, Rada Mihalcea + 4 more2026-03-05💬 cs.CL

Retrieval or Representation? Reassessing Benchmark Gaps in Multilingual and Visually Rich RAG

Deze paper toont aan dat verbeterde documentrepresentatie, en niet de zoekmachine zelf, de belangrijkste drijfveer is voor prestatieverbeteringen in meertalige en visueel rijke RAG-systemen, waardoor BM25 na adequate voorverwerking grote benchmarkgaten kan dichten.

Martin Asenov, Kenza Benkirane, Dan Goldwater + 1 more2026-03-05💬 cs.CL

Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

Dit paper introduceert Memex, een mechanisme voor geïndexeerd ervaringsgeheugen dat, in combinatie met het versterkingsleringsframework MemexRL, lange-horizon LLM-agenten in staat stelt om volledige interacties te archiveren en op vraag op te halen, waardoor de contextbeperkingen worden overwonnen zonder dat er essentiële informatie verloren gaat door samenvattingen.

Zhenting Wang, Huancheng Chen, Jiayun Wang + 1 more2026-03-05🤖 cs.LG

Causality Elicitation from Large Language Models

Deze paper stelt een pipeline voor om causale relaties uit grote taalmodellen te destilleren door documenten te genereren, gebeurtenissen te standaardiseren en causale grafieken te schatten, waarmee een inspecteerbare set van plausibele causale hypothesen wordt geboden in plaats van gegarandeerde realiteit.

Takashi Kameyama, Masahiro Kato, Yasuko Hio + 2 more2026-03-05🤖 cs.AI

Position: Vector Prompt Interfaces Should Be Exposed to Enable Customization of Large Language Models

Dit standpuntspaper pleit ervoor dat modelproviders vectorprompt-ingangen blootleggen als publieke interface voor het aanpassen van grote taalmodellen, omdat deze methode schaalbaarder en stabieler is dan tekstgebaseerde prompting en beter voldoet aan de eisen van inferentie-only-aanpassing zonder de beveiligingsrisico's aanzienlijk te vergroten.

Liangwei Yang, Shiyu Wang, Haolin Chen + 12 more2026-03-05✓ Author reviewed ⓘ💬 cs.CL

The Company You Keep: How LLMs Respond to Dark Triad Traits

Deze studie onderzoekt hoe grote taalmodellen reageren op prompts met donkere triade-eigenschappen en concludeert dat ze over het algemeen corrigerend gedrag vertonen, maar in bepaalde gevallen toch versterkend kunnen zijn, afhankelijk van de ernst van de vraag en het model.

Zeyi Lu, Angelica Henestrosa, Pavel Chizhov + 1 more2026-03-05💬 cs.CL

$V_1$ : Unifying Generation and Self-Verification for Parallel Reasoners

Dit paper introduceert $V_1$ , een kader dat generatie en zelfverificatie verenigt via efficiënte paarwijze ranking en versterkt leren, wat leidt tot aanzienlijke verbeteringen in prestaties en rekenefficiëntie voor complexe redeneertaken.

Harman Singh, Xiuyu Li, Kusha Sareen + 14 more2026-03-05💬 cs.CL

World Properties without World Models: Recovering Spatial and Temporal Structure from Co-occurrence Statistics in Static Word Embeddings

Deze studie toont aan dat statische woordembeddings, die zijn gebaseerd op co-occurrence-statistieken, reeds aanzienlijke ruimtelijke en temporele structuren bevatten, wat aangeeft dat de herwinbaarheid van wereldkennis uit LLM-verborgen toestanden niet noodzakelijk wijst op geavanceerde wereldmodellen maar eerder op de rijke structuur die al in de tekst zelf aanwezig is.

Elan Barenholtz2026-03-05🤖 cs.AI

AILS-NTUA at SemEval-2026 Task 12: Graph-Based Retrieval and Reflective Prompting for Abductive Event Reasoning

Het AILS-NTUA-team behaalde de eerste plaats bij SemEval-2026 Taak 12 met een driestapsysteem dat grafgebaseerde retriever, reflectieve prompt-evolutie en consistentiehandhaving combineert voor abductieve redenering, waarbij een analyse van 14 modellen drie systematische foutpatronen in meervoudige causale redenering blootlegde.

Nikolas Karafyllis, Maria Lymperaiou, Giorgos Filandrianos + 2 more2026-03-05💬 cs.CL

Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection

Pointer-CAD is een nieuw LLM-gebaseerd raamwerk dat B-rep-geometrie en commandosequenties verenigt via pointer-gebaseerde selectie van geometrische entiteiten, waardoor complexe CAD-modellen nauwkeuriger kunnen worden gegenereerd met minder topologische fouten dan eerdere methoden.

Dacheng Qi, Chenyu Wang, Jingwei Xu + 6 more2026-03-05💬 cs.CL

Dual-Modality Multi-Stage Adversarial Safety Training: Robustifying Multimodal Web Agents Against Cross-Modal Attacks

Dit artikel introduceert DMAST, een tweestadiaantig trainingskader dat multimodale webagenten robuuster maakt tegen cross-modale aanvallen door het agent-attacker-interactieproces te modelleren als een nul-som Markov-spel en te co-trainen via imitatielearning, orakel-gestuurde fine-tuning en adversariaal reinforcement learning.

Haoyu Liu, Dingcheng Li, Lukas Rutishauser + 1 more2026-03-05🤖 cs.AI

$τ$ -Knowledge: Evaluating Conversational Agents over Unstructured Knowledge

Dit paper introduceert $Ï$ -Knowledge, een nieuwe benchmark die conversatie-agenten evalueert op hun vermogen om ongestructureerde kennis en tools te integreren in complexe, realistische scenario's zoals die in de fintech-sector, waarbij zelfs geavanceerde modellen moeite hebben met het nauwkeurig ophalen van documenten en het toepassen van beleidsregels.

Quan Shi, Alexandra Zytek, Pedram Razavi + 2 more2026-03-05🤖 cs.AI

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning

Dit paper introduceert TaxonRL, een versterkingsleermethode met tussenbeloningen die hiërarchisch taxonomisch redeneren afdwingt om de nauwkeurigheid en interpretatie van fijnkorrelige visuele classificatie te verbeteren, waarbij het menselijk prestatieniveau op de Birds-to-Words-dataset wordt overtroffen.

Maximilian von Klinski, Maximilian Schall2026-03-05💬 cs.CL

The 2020s Political Economy of Machine Translation

Dit artikel onderzoekt de hypothese dat machinevertaling de taalbarrières in de 2020s zal verminderen, maar benadrukt dat deze technologie niet alle grenzen evenredig doorbreekt en nieuwe uitdagingen schept voor de verspreiding van ideeën, innovatie en economische groei.

Steven Weber2026-03-04💬 cs.CL

Thought Flow Nets: From Single Predictions to Trains of Model Thought

Dit artikel introduceert 'Thought Flow Nets', een methode die modellen in staat stelt om door middel van een zelfcorrigerend mechanisme en dialectische iteratie een reeks van gedachten te genereren in plaats van één enkel voorspelling, wat leidt tot verbeterde modelprestaties en een positievere gebruikerservaring.

Hendrik Schuff, Heike Adel, Ngoc Thang Vu2026-03-04🤖 cs.LG

← Vorige Volgende →

cs.CL