cs.CL papers | Gist.Science

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

Dit paper introduceert DARE, een lichtgewicht retrieval-model dat data-distributie-informatie integreert om de prestaties van LLM-agents bij het genereren van R-code en het vinden van statistische pakketten aanzienlijk te verbeteren.

Maojun Sun, Yue Wu, Yifei Xie + 5 more2026-03-06💻 cs

HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

Het HiMAP-Travel-framework lost het probleem van lange-termijn reisplanning met strikte beperkingen op door een hiërarchische multi-agent architectuur te gebruiken die strategische coördinatie en parallelle dagelijkse uitvoering combineert, wat leidt tot aanzienlijk betere prestaties dan bestaande methoden op de TravelPlanner-benchmarks.

The Viet Bui, Wenjun Li, Yong Liu2026-03-06💻 cs

Stacked from One: Multi-Scale Self-Injection for Context Window Extension

Dit paper introduceert SharedLLM, een efficiënt framework dat twee gestapelde korte-context LLM's combineert via een 'self-injection'-mechanisme en query-georiënteerde compressie om contextvensters tot meer dan 128K tokens uit te breiden zonder dure hertraining, terwijl het tegelijkertijd de geheugenvoetafdruk verkleint en de inferentiesnelheid aanzienlijk verhoogt.

Wei Han, Pan Zhou, Shuicheng Yan2026-03-06💻 cs

TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings

TSEmbed is een universeel multimodaal inbeddingsraamwerk dat door middel van een combinatie van Mixture-of-Experts en Low-Rank Adaptation taakconflicten oplost en via Expert-Aware Negative Sampling state-of-the-art prestaties bereikt op zowel benchmark- als industriële datasets.

Yebo Wu, Feng Liu, Ziwei Xie + 4 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

Dit paper introduceert Privacy Camera 2.0, een nieuw privacybewust waarnemingskader dat via een edge-cloud architectuur en het AI Flow-paradigma ruwe beelden in real-time omzet in wiskundig onomkeerbare abstracte vectorrepresentaties, waardoor gedetailleerde gedragsanalyse en visuele reconstructie mogelijk zijn zonder de oorspronkelijke privacygevoelige beelden te onthullen.

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction

Dit paper introduceert RLSTA, een versterkingsleer-methode die multi-turn interacties stabiliseert door het 'contextuele inertie'-probleem aan te pakken, waarbij modellen vasthouden aan eerdere foutieve redeneringen, door gebruik te maken van sterke single-turn prestaties als ankers voor zelfkalibratie.

Xingwu Chen, Zhanqiu Zhang, Yiwen Guo + 1 more2026-03-06💻 cs

Beyond Linear LLM Invocation: An Efficient and Effective Semantic Filter Paradigm

Dit paper introduceert het CSV-framework (Clustering-Sampling-Voting), dat de kosten en latentie van semantische filtering met grote taalmodellen drastisch verlaagt door sublineaire complexiteit te bereiken via clustering, steekproeven en stemmechanismen, zonder in te leveren op nauwkeurigheid.

Nan Hou, Kangfei Zhao, Jiadong Xie + 1 more2026-03-06💻 cs

Attention's Gravitational Field:A Power-Law Interpretation of Positional Correlation

Dit paper introduceert het concept van het Aandacht-Gravitationele Veld (AGF) als een kracht-wet-gebaseerde interpretatie van positionele correlaties in grote taalmodellen, waarbij het ontkoppelen van positionele coderingen van semantische embeddings leidt tot verbeterde nauwkeurigheid en een empirische overeenkomst met Newton's wet van universele zwaartekracht.

Edward Zhang2026-03-06💻 cs

Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents

Deze studie vergelijkt fact-gebaseerde geheugensystemen met lange-context LLM's voor persistente agents en concludeert dat, hoewel lange-context modellen vaak betere feitelijke recall bieden, het geheugenarchitectuur op de lange termijn kostenefficiënter is en een waardevol alternatief biedt voor productiedeployments afhankelijk van de contextlengte en het type taak.

Natchanon Pollertlam, Witchayut Kornsuwannawit2026-03-06💬 cs.CL

Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses

Deze meta-analyse onthult dat AI-modellen voor het beoordelen van korte antwoorden significant tekortschieten in vergelijking met menselijke experts, waarbij decoder-only-architecturen slechter presteren dan encoders, de moeilijkheidsgraad van de taak geen invloed heeft op de AI-prestaties, en er sprake is van ernstige gevoeligheid voor formulering en raciale discriminatie in hoge-stakes onderwijscontexten.

Michael Hardy2026-03-06💬 cs.CL

From Unfamiliar to Familiar: Detecting Pre-training Data via Gradient Deviations in Large Language Models

Dit artikel introduceert GDS, een methode die vooraf getrainde data in grote taalmodellen detecteert door systematische afwijkingen in gradiëntgedrag te analyseren, waardoor het de bestaande prestaties en overdraagbaarheid van bestaande methoden verbetert.

Ruiqi Zhang, Lingxiang Wang, Hainan Zhang + 2 more2026-03-06💬 cs.CL

An Approach to Simultaneous Acquisition of Real-Time MRI Video, EEG, and Surface EMG for Articulatory, Brain, and Muscle Activity During Speech Production

Dit paper introduceert een nieuwe aanpak voor gelijktijdige opname van real-time MRI, EEG en oppervlakte-EMG tijdens spraakproductie, inclusief een op maat gemaakt proces voor het onderdrukken van artefacten, om inzicht te krijgen in de neurale en motorische processen van spraak.

Jihwan Lee, Parsa Razmara, Kevin Huang + 16 more2026-03-06🤖 cs.AI

Why Is RLHF Alignment Shallow? A Gradient Analysis

Dit paper bewijst dat gradienten op basis van RLHF alignment inherent oppervlakkig zijn omdat ze verdwijnen zodra de schadelijkheid van een output is vastgesteld, en stelt een nieuw doel voor dat herstelstraffen gebruikt om een gradientensignaal over de volledige sequentie te behouden.

Robin Young2026-03-06🤖 cs.LG

SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts

Dit paper introduceert SinhaLegal, een uitgebreid corpus van ongeveer 2 miljoen woorden bestaande uit Sinhala-wetgevingsteksten dat is ontwikkeld om de kloof in wetenschappelijk onderzoek te dichten en diverse NLP-taken zoals informatievergaring en analyse te ondersteunen.

Minduli Lasandi, Nevidu Jayatilleke2026-03-06💬 cs.CL

HACHIMI: Scalable and Controllable Student Persona Generation via Orchestrated Agents

Dit paper introduceert HACHIMI, een multi-agent framework dat schaalbare en controleerbare studentenpersonas genereert die zijn afgestemd op educatieve theorieën en demografische verdelingen, resulterend in een corpus van 1 miljoen personas dat dient als standaard voor het benchmarken van educatieve AI en sociale simulaties.

Yilin Jiang, Fei Tan, Xuanyu Yin + 2 more2026-03-06💬 cs.CL

FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

Dit paper introduceert FireBench, een nieuw open-source benchmark met meer dan 2.400 samples die specifiek is ontworpen om instructievolgende vaardigheden van grote taalmodellen te evalueren in zakelijke en API-gedreven scenario's, waarmee een gat wordt gedicht tussen bestaande benchmarks en de behoeften van enterprise-toepassingen.

Yunfan Zhang, Yijie Bei, Jetashree Ravi + 1 more2026-03-06💬 cs.CL

Free Lunch for Pass@ $k$ ? Low Cost Diverse Sampling for Diffusion Language Models

Deze paper introduceert een trainingsvrije, kostenefficiënte methode die de diversiteit van Diffusion Language Models verbetert door tussentijdse samples sequentieel te repelleren, wat leidt tot aanzienlijk betere Pass@ $k$ -prestaties op benchmarks zoals HumanEval en GSM8K zonder extra rekenkosten.

Sean Lamont, Christian Walder, Paul Montague + 2 more2026-03-06🤖 cs.AI

Can LLMs Capture Expert Uncertainty? A Comparative Analysis of Value Alignment in Ethnographic Qualitative Research

Deze studie toont aan dat hoewel grote taalmodellen (LLMs) qua prestatie dicht bij menselijke experts komen bij het analyseren van waarden in kwalitatief onderzoek, hun onzekerheidspatronen en rangschikkingen van waarden afwijken, waarbij ensemble-methoden de nauwkeurigheid verbeteren maar systematische bias in bepaalde waarden zoals 'veiligheid' blijft bestaan.

Arina Kostina, Marios Dikaiakos, Alejandro Porcel + 1 more2026-03-06💬 cs.CL

Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems

Dit onderzoek toont aan dat veiligheidsinterventies in meervoudige LLM-agenten, die in het Engels effectief lijken, in andere talen zoals het Japans een 'alignment backfire' kunnen veroorzaken waarbij oppervlakkige veiligheid leidt tot een toename van collectieve pathologie en dissociatie, wat aantoont dat taalruimte de uitkomsten van veiligheidsafstemming fundamenteel bepaalt.

Hiroki Fukui2026-03-06🤖 cs.AI

AILS-NTUA at SemEval-2026 Task 10: Agentic LLMs for Psycholinguistic Marker Extraction and Conspiracy Endorsement Detection

Dit artikel presenteert een innovatieve pipeline met agentische LLMs voor SemEval-2026 Taak 10 die psycholinguïstische complotmarkers en complotgoedkeuring gescheiden behandelt via Dynamic Discriminative Chain-of-Thought en een 'Anti-Echo Chamber'-architectuur, wat leidt tot aanzienlijke prestatieverbeteringen en een derde plaats op de ontwikkelingsleaderboard.

Panagiotis Alexios Spanakis, Maria Lymperaiou, Giorgos Filandrianos + 2 more2026-03-06💬 cs.CL

← Vorige Volgende →

cs.CL