cs.CL papers | Gist.Science

Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

Dit paper introduceert een multi-agent framework dat code-gebaseerde agents gebruikt om bestaande wiskundeproblemen autonoom te evolueren naar complexere, oplosbare varianten, waarmee een schaalbare oplossing wordt geboden voor het tekort aan uitdagende trainingsdata voor geavanceerde wiskundige redenering.

Dadi Guo, Yuejin Xie, Qingyu Liu + 7 more2026-03-05💬 cs.CL

AriadneMem: Threading the Maze of Lifelong Memory for LLM Agents

Het paper introduceert AriadneMem, een gestructureerd geheugensysteem voor LLM-agenten dat middels een gefaseerde aanpak met entropiebewuste filtering en conflictbewuste samenvoeging de uitdagingen van losgekoppelde bewijslast en statische updates oplost, wat resulteert in aanzienlijke verbeteringen in meerhop-precisie en een drastische reductie van de runtime.

Wenhui Zhu, Xiwen Chen, Zhipeng Wang + 11 more2026-03-05🤖 cs.AI

One Bias After Another: Mechanistic Reward Shaping and Persistent Biases in Language Reward Models

Deze paper identificeert aanhoudende en nieuwe biases in beloningsmodellen voor taalmodellen en introduceert een effectieve, post-hoc mechanische beloningsvorming om deze te verminderen zonder de algehele kwaliteit te schaden.

Daniel Fein, Max Lamparth, Violet Xiang + 2 more2026-03-05🤖 cs.AI

From Conflict to Consensus: Boosting Medical Reasoning via Multi-Round Agentic RAG

Het paper introduceert MA-RAG, een multi-round agentic RAG-framework dat medische redenering verbetert door semantische conflicten om te zetten in iteratieve zoekopdrachten en een versterkingsmechanisme te gebruiken om consensus te bereiken, wat resulteert in een aanzienlijke stijging van de nauwkeurigheid op medische benchmarks.

Wenhao Wu, Zhentao Tang, Yafu Li + 5 more2026-03-05🤖 cs.AI

SE-Search: Self-Evolving Search Agent via Memory and Dense Reward

Het paper introduceert SE-Search, een zelfevoluerende zoekagent die hallucinaties in grote taalmodellen vermindert door een 'Denk-Zoek-Geheugen'-strategie te combineren met geheugenzuivering, atomaire query-training en dichte beloningen, wat resulteert in aanzienlijk betere prestaties dan bestaande methoden op vraagbeantwoordingsbeproevingen.

Jian Li, Yizhang Jin, Dongqi Liu + 9 more2026-03-05💬 cs.CL

Fine-Tuning and Evaluating Conversational AI for Agricultural Advisory

Dit paper introduceert een hybride LLM-architectuur voor landbouwadvies die, door gesuperviseerde fine-tuning op gecureerde feiten en een aparte 'stitching'-laag voor veiligheidsbewuste communicatie, nauwkeurigere en veiliger antwoorden biedt voor kleine boeren in Bihar, India, dan standaardmodellen.

Sanyam Singh, Naga Ganesh, Vineet Singh + 8 more2026-03-05🤖 cs.AI

Language Model Goal Selection Differs from Humans' in an Open-Ended Task

Deze studie toont aan dat grote taalmodellen bij het autonoom kiezen van doelen in open-ended taken sterk afwijken van menselijk gedrag door te vervallen in exploitatie of lage prestaties, waardoor ze ongeschikt zijn als vervanging voor mensen in toepassingen zoals persoonlijk assistentie en beleidsresearch.

Gaia Molinaro, Dave August, Danielle Perszyk + 1 more2026-03-05🤖 cs.AI

PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents

Het artikel introduceert PlugMem, een taakongebonden plugin-module voor LLM-agenten die episodische herinneringen omzet in een compacte, kennisgerichte graaf om efficiëntere zoekopdrachten en redenering mogelijk te maken dan bestaande methoden.

Ke Yang, Zixi Chen, Xuan He + 6 more2026-03-05🤖 cs.AI

TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement

Dit artikel introduceert TTSR, een zelfreflecterend testtijd-trainingsframework dat de redeneerprestaties van grote taalmodellen verbetert door een voortdurende cyclus waarin het model als leraar en leerling optreedt om gerichte variantvragen te genereren op basis van eerdere fouten.

Haoyang He, Zihua Rong, Liangjie Zhao + 3 more2026-03-05🤖 cs.AI

TATRA: Training-Free Instance-Adaptive Prompting Through Rephrasing and Aggregation

TATRA is een trainingsvrije methode die door het dynamisch genereren van voorbeeldzinnen per individuele taak, zonder gebruik van gelabelde data of kostbare optimalisatie, de prestaties van grote taalmodellen op tekstclassificatie en wiskundig redeneren verbetert.

Bartosz Dziuba, Kacper Kuchta, Paweł Batorski + 2 more2026-03-05🤖 cs.AI

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

Deze studie auditeert de fabricage van academische citaten door tien grote taalmodellen, kwantificeert de hallucinatiepercentages over verschillende domeinen en modellen, en presenteert effectieve detectiemethoden zoals multi-model consensus en een lichtgewicht classifier die hallucinaties kan identificeren zonder externe databases.

MZ Naser2026-03-05💬 cs.CL

Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys

Deze studie toont aan dat hoewel bestaande RAG-modellen en commerciële juridische AI-tools vaak falen bij het benchmarken van Amerikaanse werkloosheidsverzekeringen, een aangepast tool (STARA) aanzienlijk betere resultaten boekt en bovendien blootlegt dat veel vermeende fouten eigenlijk omissies in de menselijke grondwaarheid zijn, wat leidt tot concrete richtlijnen voor de ontwikkeling van nauwkeurige juridische AI-systemen.

Mohamed Afane, Emaan Hariri, Derek Ouyang + 1 more2026-03-05💬 cs.CL

From Exact Hits to Close Enough: Semantic Caching for LLM Embeddings

Dit paper onderzoekt semantische caching voor LLM-embeddings, bewijst dat het vinden van een optimale offline beleid NP-moeilijk is, en stelt polynomiale heuristieken en online beleidsregels voor die de prestaties verbeteren ten opzichte van bestaande methoden.

Dvir David Biton, Roy Friedman2026-03-05🤖 cs.AI

Developing an AI Assistant for Knowledge Management and Workforce Training in State DOTs

Dit artikel stelt een Retrieval-Augmented Generation-framework voor met een multi-agent architectuur en visueel-taalmodellen om de kennisbeheer en werknemersopleiding in staatsverkeersafdelingen te verbeteren door het integreren van tekstuele en visuele documentatie voor contextbewuste, evidence-based antwoorden.

Divija Amaram, Lu Gao, Gowtham Reddy Gudla + 1 more2026-03-05🤖 cs.AI

HumanLM: Simulating Users with State Alignment Beats Response Imitation

Dit paper introduceert HumanLM, een nieuw trainingskader dat gebruikerssimulaties verbetert door niet alleen antwoorden te imiteren, maar ook psychologisch onderbouwde, verborgen toestanden te genereren die via versterkingslering zijn uitgelijnd met de werkelijke reacties van gebruikers, wat resulteert in aanzienlijk betere prestaties op de nieuwe Humanual-benchmark.

Shirley Wu, Evelyn Choi, Arpandeep Khatua + 7 more2026-03-05🤖 cs.AI

Draft-Conditioned Constrained Decoding for Structured Generation in LLMs

Dit paper introduceert Draft-Conditioned Constrained Decoding (DCCD), een trainingsvrije methode die de semantische planning en structurele validatie ontkoppelt om de nauwkeurigheid van gestructureerde generatie in taalmodellen aanzienlijk te verbeteren zonder de modelgrootte te vergroten.

Avinash Reddy, Thayne T. Walker, James S. Ide + 1 more2026-03-05🤖 cs.AI

Token-Oriented Object Notation vs JSON: A Benchmark of Plain and Constrained Decoding Generation

Dit onderzoek vergelijkt de nieuwe Token-Oriented Object Notation (TOON) met JSON en concludeert dat TOON, ondanks een gunstige token-efficiëntie bij complexe taken, vaak wordt beperkt door prompt-overhead en dat geconstrueerde JSON-decodering voor eenvoudige structuren zelfs nog efficiënter kan zijn dan TOON.

Ivan Matveev2026-03-05🤖 cs.AI

TopicENA: Enabling Epistemic Network Analysis at Scale through Automated Topic-Based Coding

Deze studie introduceert TopicENA, een framework dat BERTopic en Epistemic Network Analysis combineert om handmatige codering te vervangen door geautomatiseerde onderwerpanalyse, waardoor schaalbare en interpreteerbare netwerkanalyses van grote tekstcorpora mogelijk worden.

Owen H. T. Lu, Tiffany T. Y. Hsu2026-03-05🤖 cs.AI

Old Habits Die Hard: How Conversational History Geometrically Traps LLMs

Dit paper introduceert het History-Echoes-framework om aan te tonen dat conversatiegeschiedenis large language models zowel probabilistisch als geometrisch beïnvloedt, waarbij gedragspersistentie resulteert in een 'geometrische val' die de latente ruimte van het model beperkt.

Adi Simhi, Fazl Barez, Martin Tutek + 2 more2026-03-05🤖 cs.AI

Combating data scarcity in recommendation services: Integrating cognitive types of VARK and neural network technologies (LLM)

Dit onderzoek presenteert een hybride raamwerk dat Large Language Models en VARK-cognitieve profielen integreert om het koude-startprobleem in aanbevelingssystemen op te lossen door semantische verrijking en gepersonaliseerde, cognitief afgestemde interfaces te bieden.

Nikita Zmanovskii2026-03-05💬 cs.CL

← Vorige Volgende →