cs.CL papers | Gist.Science

Query Disambiguation via Answer-Free Context: Doubling Performance on Humanity's Last Exam

Dit onderzoek toont aan dat het herschrijven van vragen om ambiguïteit te verminderen, gebruikmakend van antwoordvrije context, de nauwkeurigheid van taalmodellen op de Humanity's Last Exam-benchmark aanzienlijk kan verdubbelen zonder de antwoorden zelf te wijzigen.

Michael Majurski, Cynthia Matuszek2026-03-06💻 cs

Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks

Deze studie toont aan dat tijdsgerelateerde wijzigingen in technische corpora, zoals de migratie van documentatie naar concurrerende repositories, slechts een beperkte impact hebben op de betrouwbaarheid en rangschikking van informatiezoek-benchmarks, wat suggereert dat dergelijke evaluaties ook met evoluerende corpora stabiel blijven.

Nathan Kuissi, Suraj Subrahmanyan, Nandan Thakur + 1 more2026-03-06💻 cs

Adaptive Memory Admission Control for LLM Agents

Dit artikel introduceert A-MAC, een transparant en efficiënt framework dat de opname van informatie in het langetermijngeheugen van LLM-agenten optimaliseert door middel van vijf interpreteerbare factoren, wat resulteert in een betere precisie-recall balans en lagere latentie dan bestaande systemen.

Guilin Zhang, Wei Jiang, Xiejiashan Wang + 5 more2026-03-06💻 cs

From Static Inference to Dynamic Interaction: Navigating the Landscape of Streaming Large Language Models

Deze paper biedt een overzichtelijke analyse van streaming Large Language Models door een eenduidige definitie en systematische taxonomie te presenteren die de huidige ambiguïteiten oplost en toekomstige onderzoeksrichtingen voor dynamische interactie in kaart brengt.

Junlong Tong, Zilong Wang, YuJie Ren + 4 more2026-03-06💻 cs

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

GOLF is een nieuw versterkingsleerframework dat groepsniveau natuurlijke taalfeedback, bestaande uit externe kritieken en intra-groeps pogingen, benut om gerichte exploratie te sturen en zo de sample-efficiëntie aanzienlijk te verbeteren ten opzichte van methoden die uitsluitend op scalair beloningssysteem vertrouwen.

Lei Huang, Xiang Cheng, Chenxiao Zhao + 6 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Dit paper introduceert Vibe Code Bench, een nieuw benchmark voor het evalueren van AI-modellen op het volledige proces van het ontwikkelen van webapplicaties, en onthult dat zelfs de beste modellen nog slechts 58% nauwkeurigheid bereiken, waardoor betrouwbare end-to-end ontwikkeling een uitdaging blijft.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Coordinated Semantic Alignment and Evidence Constraints for Retrieval-Augmented Generation with Large Language Models

Dit artikel stelt een geavanceerde methode voor voor retrieval-augmented generation die door gecoördineerde semantische uitlijning en expliciete bewijsbeperkingen de feitelijke betrouwbaarheid en verifieerbaarheid van door grote taalmodellen gegenereerde inhoud verbetert.

Xin Chen, Saili Uday Gadgil, Jiarong Qiu2026-03-06💻 cs

iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics

iAgentBench is een dynamisch benchmark dat de vermogens van informatieve zoekagenten om zintuiglijke conclusies te trekken uit meerdere bronnen op populaire onderwerpen evalueert, waarbij wordt vastgesteld dat het enkel ophalen van informatie onvoldoende is voor het oplossen van complexe vragen die synthese vereisen.

Preetam Prabhu Srikar Dammu, Arnav Palkhiwala, Tanya Roosta + 1 more2026-03-06💻 cs

Stan: An LLM-based thermodynamics course assistant

Dit artikel beschrijft Stan, een lokaal draaiend AI-systeem voor een thermodynamica-cursus dat zowel studenten grondige antwoorden biedt als docenten gestructureerde lesanalyses levert, volledig gebaseerd op open-source modellen en zonder afhankelijkheid van cloud-API's.

Eric M. Furst, Vasudevan Venkateshwaran2026-03-06🔬 physics

Using Vision + Language Models to Predict Item Difficulty

Dit onderzoek toont aan dat een multimodale aanpak met GPT-4.1-nano, die zowel tekst als visuele elementen van datavisualisaties combineert, de moeilijkheidsgraad van testvragen voor data-literacy nauwkeuriger voorspelt dan enkel tekst- of visuele modellen.

Samin Khan2026-03-06💻 cs

Optimizing Language Models for Crosslingual Knowledge Consistency

Dit paper introduceert Direct Consistency Optimization (DCO), een efficiënte methode die taalmodellen optimaliseert voor consistente kennisoverdracht tussen talen door middel van versterkingslearning, zonder dat een expliciet beloningsmodel nodig is.

Tianyu Liu, Jirui Qi, Mrinmaya Sachan + 3 more2026-03-06💻 cs

Non-Zipfian Distribution of Stopwords and Subset Selection Models

Dit paper toont aan dat stopwoorden een niet-Zipfiaanse verdeling volgen die het beste wordt gemodelleerd door een Beta Rank-functie, en introduceert een selectiemodel op basis van Hill-functies dat deze verdeling en de afwijkende patronen van niet-stopwoorden analytisch verklaart.

Wentian Li, Oscar Fontanelli2026-03-06💻 cs

Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

Dit onderzoek evalueert de effectiviteit van data-augmentatie en kenmerkverbetering voor de detectie van haatzaaiende taal, waarbij het aantoont dat open-source modellen zoals gpt-oss-20b over het algemeen het beste presteren, hoewel traditionele methoden zoals Delta TF-IDF met augmentatie op specifieke datasets tot 98,2% nauwkeurigheid kunnen bereiken, en benadrukt dat de detectie van impliciete haatzaaiende taal complexer is en sterk afhankelijk is van de interactie tussen dataset, model en techniek.

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen + 3 more2026-03-06💻 cs

Detection of Illicit Content on Online Marketplaces using Large Language Models

Dit onderzoek toont aan dat fijngefineerde Large Language Models, met name Llama 3.2, op basis van de multilinguale DUTA10K-dataset superieur presteren in het detecteren en classificeren van complexe, illegale inhoud op online marktplaatsen vergeleken met traditionele machine learning-basismodellen.

Quoc Khoa Tran, Thanh Thi Nguyen, Campbell Wilson2026-03-06💻 cs

AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments

Dit onderzoek toont aan dat AI-modellen, geëvalueerd met een tweelaagskader, realistische en pedagogisch waardevolle vragen kunnen genereren voor moot court-training, maar dat ze ondanks hoge recall nog te kampen hebben met beperkingen zoals gebrek aan diversiteit en sycofantie die door naïeve evaluaties onopgemerkt blijven.

Kylie Zhang, Nimra Nadeem, Lucia Zheng + 2 more2026-03-06💻 cs

Model Medicine: A Clinical Framework for Understanding, Diagnosing, and Treating AI Models

Dit artikel introduceert "Model Medicine", een klinisch raamwerk dat AI-modellen behandelt als biologische organismen met een gestructureerde taxonomie, diagnostische hulpmiddelen zoals Neural MRI en het Four Shell Model, en therapeutische protocollen voor het begrijpen, diagnosticeren en behandelen van modelstoornissen.

Jihoon Jeong2026-03-06💻 cs

Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery

Dit artikel beschrijft hoe een neuro-symbolisch systeem, dat de Gemini Deep Think-taalmodel combineert met een boomzoekframework en numerieke feedback, een open probleem in de theoretische fysica heeft opgelost door autonome, exacte analytische oplossingen af te leiden voor het vermogensspectrum van zwaartekrachtstraling uit kosmische snaren.

Michael P. Brenner, Vincent Cohen-Addad, David Woodruff2026-03-06💻 cs

Interactive Benchmarks

Deze paper introduceert 'Interactive Benchmarks', een nieuw evaluatiekader dat de intelligentie van modellen meet door hun vermogen om actief informatie te verwerven en te redeneren binnen interactieve scenario's zoals bewijzen en spelletjes, waardoor de beperkingen van traditionele benchmarks worden overwonnen.

Baoqing Yue, Zihan Zhu, Yifan Zhang + 3 more2026-03-06💻 cs

IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation

Dit paper introduceert IF-RewardBench, een uitgebreide meta-evaluatiebenchmark voor instructievolgende taalgroottes die een lijstvormige evaluatieparadigma gebruikt om de betrouwbaarheid van huidige beoordelingsmodellen te testen en een sterkere correlatie met downstream-taakprestaties aan te tonen.

Bosi Wen, Yilin Niu, Cunxiang Wang + 5 more2026-03-06💻 cs

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

Dit paper introduceert DARE, een lichtgewicht retrieval-model dat data-distributie-informatie integreert om de prestaties van LLM-agents bij het genereren van R-code en het vinden van statistische pakketten aanzienlijk te verbeteren.

Maojun Sun, Yue Wu, Yifei Xie + 5 more2026-03-06💻 cs

← Vorige Volgende →