cs.CL papers | Gist.Science

Optimizing What We Trust: Reliability-Guided QUBO Selection of Multi-Agent Weak Framing Signals for Arabic Sentiment Prediction

Dit artikel introduceert een betrouwbaarheidsbewust raamwerk voor zwak toezicht dat een multi-agent LLM-pijplijn combineert met QUBO-gebaseerde selectie om robuuste, gebalanceerde datasets voor Arabische sentimentanalyse te creëren.

Rabab Alkhalifa2026-03-06💻 cs

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Deze studie toont aan dat grote taalmodellen als beoordelaars onbetrouwbaar zijn voor productieomgevingen, omdat ze bij identieke invoer aanzienlijk verschillende scores kunnen toekennen afhankelijk van het model, de temperatuurinstelling en de interpretatiestijl.

Fiona Lau2026-03-06💻 cs

Context-Dependent Affordance Computation in Vision-Language Models

Deze studie toont aan dat Vision-Language-modellen contextafhankelijke affordances berekenen, waarbij zowel de woordkeuze als de semantische betekenis sterk variëren afhankelijk van de context, wat wijst op de noodzaak van dynamische, query-afhankelijke ontologische projectie in de robotica.

Murad Farzulla2026-03-06💻 cs

Do Mixed-Vendor Multi-Agent LLMs Improve Clinical Diagnosis?

Dit onderzoek toont aan dat multi-agent systemen voor klinische diagnose, waarin agents van verschillende leveranciers samenwerken, superieure resultaten behalen dan homogene teams door het combineren van complementaire inductieve biases en het verminderen van gedeelde foutpatronen.

Grace Chang Yuan, Xiaoman Zhang, Sung Eun Kim + 1 more2026-03-06💻 cs

Generating Realistic, Protocol-Compliant Maritime Radio Dialogues using Self-Instruct and Low-Rank Adaptation

Deze studie introduceert een compliance-bewuste Self-Instruct-methode, gecombineerd met LoRA-finetuning en een strikt verificatieproces, om realistische en protocolconforme maritieme radio-dialogen te genereren die het gebrek aan hoogwaardige data voor AI-ondersteunde veiligheidssystemen oplossen.

Gürsel Akdeniz, Emin Cagatay Nakilcioglu2026-03-06💻 cs

What Is Missing: Interpretable Ratings for Large Language Model Outputs

Dit paper introduceert het 'What Is Missing' (WIM) ratingsysteem, dat interpreteerbare voorkeurslabels genereert door de cosine-ähnelijkheid tussen modeluitvoer en tekstuele feedback over ontbrekende informatie te berekenen, waardoor een robuuster leersignaal ontstaat dan bij traditionele numerieke ratings.

Nicholas Stranges, Yimin Yang2026-03-06💻 cs

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Dit overzichtspaper analyseert geavanceerde methoden voor dynamische routering en cascading tussen meerdere onafhankelijke grote taalmodellen om de inferentie-efficiëntie te maximaliseren door query-gebaseerde modelselectie, en presenteert een conceptueel raamwerk om deze systemen te classificeren en de afwegingen tussen kosten en prestaties te optimaliseren.

Yasmin Moslem, John D. Kelleher2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

SkillNet is een open infrastructuur die AI-vaardigheden systematisch creëert, evalueert en koppelt via een uniek ontologie, waardoor agenten hun prestaties aanzienlijk verbeteren door herhaling van oplossingen te voorkomen en eerder verworven kennis effectief te benutten.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed💻 cs

A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

Deze studie introduceert een unificerend raamwerk voor het injecteren van kennis en evalueren van grote taalmodellen in de verbrandingswetenschap, waarbij wordt aangetoond dat een gestructureerde aanpak met kennisgrafieken en voortgezette pretraining noodzakelijk is om de beperkingen van standaard retrieval-augmented generation te overwinnen.

Zonglin Yang, Runze Mao, Tianhao Wu + 3 more2026-03-06💻 cs

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

Dit artikel introduceert een nieuwe aanvalsmethode op multimodale grote taalmodellen die door het maximaliseren van numerieke instabiliteit tijdens de inferentie aanzienlijke prestatieverminderingen veroorzaakt, zelfs bij minimale beeldwijzigingen die door traditionele adversariële perturbaties niet worden gedekt.

Wai Tuck Wong, Jun Sun, Arunesh Sinha2026-03-06💻 cs

Query Disambiguation via Answer-Free Context: Doubling Performance on Humanity's Last Exam

Dit onderzoek toont aan dat het herschrijven van vragen om ambiguïteit te verminderen, gebruikmakend van antwoordvrije context, de nauwkeurigheid van taalmodellen op de Humanity's Last Exam-benchmark aanzienlijk kan verdubbelen zonder de antwoorden zelf te wijzigen.

Michael Majurski, Cynthia Matuszek2026-03-06💻 cs

Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks

Deze studie toont aan dat tijdsgerelateerde wijzigingen in technische corpora, zoals de migratie van documentatie naar concurrerende repositories, slechts een beperkte impact hebben op de betrouwbaarheid en rangschikking van informatiezoek-benchmarks, wat suggereert dat dergelijke evaluaties ook met evoluerende corpora stabiel blijven.

Nathan Kuissi, Suraj Subrahmanyan, Nandan Thakur + 1 more2026-03-06💻 cs

Adaptive Memory Admission Control for LLM Agents

Dit artikel introduceert A-MAC, een transparant en efficiënt framework dat de opname van informatie in het langetermijngeheugen van LLM-agenten optimaliseert door middel van vijf interpreteerbare factoren, wat resulteert in een betere precisie-recall balans en lagere latentie dan bestaande systemen.

Guilin Zhang, Wei Jiang, Xiejiashan Wang + 5 more2026-03-06💻 cs

From Static Inference to Dynamic Interaction: Navigating the Landscape of Streaming Large Language Models

Deze paper biedt een overzichtelijke analyse van streaming Large Language Models door een eenduidige definitie en systematische taxonomie te presenteren die de huidige ambiguïteiten oplost en toekomstige onderzoeksrichtingen voor dynamische interactie in kaart brengt.

Junlong Tong, Zilong Wang, YuJie Ren + 4 more2026-03-06💻 cs

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

GOLF is een nieuw versterkingsleerframework dat groepsniveau natuurlijke taalfeedback, bestaande uit externe kritieken en intra-groeps pogingen, benut om gerichte exploratie te sturen en zo de sample-efficiëntie aanzienlijk te verbeteren ten opzichte van methoden die uitsluitend op scalair beloningssysteem vertrouwen.

Lei Huang, Xiang Cheng, Chenxiao Zhao + 6 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Dit paper introduceert Vibe Code Bench, een nieuw benchmark voor het evalueren van AI-modellen op het volledige proces van het ontwikkelen van webapplicaties, en onthult dat zelfs de beste modellen nog slechts 58% nauwkeurigheid bereiken, waardoor betrouwbare end-to-end ontwikkeling een uitdaging blijft.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Coordinated Semantic Alignment and Evidence Constraints for Retrieval-Augmented Generation with Large Language Models

Dit artikel stelt een geavanceerde methode voor voor retrieval-augmented generation die door gecoördineerde semantische uitlijning en expliciete bewijsbeperkingen de feitelijke betrouwbaarheid en verifieerbaarheid van door grote taalmodellen gegenereerde inhoud verbetert.

Xin Chen, Saili Uday Gadgil, Jiarong Qiu2026-03-06💻 cs

iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics

iAgentBench is een dynamisch benchmark dat de vermogens van informatieve zoekagenten om zintuiglijke conclusies te trekken uit meerdere bronnen op populaire onderwerpen evalueert, waarbij wordt vastgesteld dat het enkel ophalen van informatie onvoldoende is voor het oplossen van complexe vragen die synthese vereisen.

Preetam Prabhu Srikar Dammu, Arnav Palkhiwala, Tanya Roosta + 1 more2026-03-06💻 cs

Stan: An LLM-based thermodynamics course assistant

Dit artikel beschrijft Stan, een lokaal draaiend AI-systeem voor een thermodynamica-cursus dat zowel studenten grondige antwoorden biedt als docenten gestructureerde lesanalyses levert, volledig gebaseerd op open-source modellen en zonder afhankelijkheid van cloud-API's.

Eric M. Furst, Vasudevan Venkateshwaran2026-03-06🔬 physics

Using Vision + Language Models to Predict Item Difficulty

Dit onderzoek toont aan dat een multimodale aanpak met GPT-4.1-nano, die zowel tekst als visuele elementen van datavisualisaties combineert, de moeilijkheidsgraad van testvragen voor data-literacy nauwkeuriger voorspelt dan enkel tekst- of visuele modellen.

Samin Khan2026-03-06💻 cs

← Vorige Volgende →