cs.LG papers | Gist.Science

AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications

Dit artikel introduceert AMA-Bench, een nieuw beoordelingskader voor het langetermijngeheugen van LLM-agents in realistische omgevingen, en presenteert AMA-Agent, een verbeterd systeem dat door middel van een causaliteitsgraf en tool-geaugmenteerde ophaalfuncties aanzienlijk beter scoort dan bestaande benchmarks.

Yujie Zhao, Boqin Yuan, Junbo Huang + 9 more2026-03-05🤖 cs.AI

Causal Identification from Counterfactual Data: Completeness and Bounding Results

Deze paper introduceert het CTFIDU+-algoritme om de volledigheid en theoretische grenzen van causale identificatie te bepalen op basis van experimenteel realiseerbare counterfactuele data, en levert bovendien nieuwe analytische onder- en bovengrenzen voor niet-identificeerbare grootheden.

Arvind Raghavan, Elias Bareinboim2026-03-05🤖 cs.AI

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Dit artikel introduceert CMI-RewardBench, een uitgebreid ecosysteem met datasets en benchmarks voor het evalueren van beloningsmodellen voor muziekgeneratie onder compositional multimodal instruction, wat leidt tot nauwkeurige modellen die sterk correleren met menselijke beoordelingen en effectieve inferentie-schaling mogelijk maken.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Causal Circuit Tracing Reveals Distinct Computational Architectures in Single-Cell Foundation Models: Inhibitory Dominance, Biological Coherence, and Cross-Model Convergence

Deze studie introduceert causale circuittracing om aan te tonen dat single-cell foundation-modellen, ondanks hun architecturale verschillen, een opvallende biologische coherentie en inhiberende dominantie vertonen, waarbij gedeelde domeinen sterk geassocieerd zijn met ziekten en experimenteel worden gevalideerd.

Ihor Kendiukhov2026-03-05🤖 cs.LG

From Variance to Invariance: Qualitative Content Analysis for Narrative Graph Annotation

Dit paper introduceert een kwalitatief georiënteerd annotatiekader voor narratieve grafieken over inflatie, waarbij een experimenteel ontwerp aantoont dat lokale representaties de variatie tussen annotatoren verminderen en dat overlap-gebaseerde metrieken de betrouwbaarheid overschatten.

Junbo Huang, Max Weinig, Ulrich Fritsche + 1 more2026-03-05🤖 cs.AI

Rich Insights from Cheap Signals: Efficient Evaluations via Tensor Factorization

Deze paper introduceert een efficiënt statistisch model op basis van tensorfactorisatie dat goedkope automatische beoordelingen combineert met een beperkt aantal menselijke labels om nauwkeurige, fijnmazige evaluaties van generatieve modellen op prompt-niveau mogelijk te maken.

Felipe Maia Polo, Aida Nematzadeh, Virginia Aglietti + 2 more2026-03-05🤖 cs.AI

Federated Inference: Toward Privacy-Preserving Collaborative and Incentivized Model Serving

Dit artikel introduceert Federated Inference als een uniek samenwerkingsparadigma voor privacybehoudende modelvoorspelling, waarbij het de fundamentele eisen, ontwerpafwegingen en uitdagingen analyseert die nodig zijn om schaalbare en gestimuleerde systemen te realiseren.

Jungwon Seo, Ferhat Ozgur Catak, Chunming Rong + 1 more2026-03-05🤖 cs.AI

Structured vs. Unstructured Pruning: An Exponential Gap

Dit paper toont aan dat er een exponentieel verschil bestaat tussen gestructureerde en ongestructureerde pruning, waarbij het benaderen van een ReLU-neuron via neuron-pruning aanzienlijk meer overparameterisatie vereist dan via gewichts-pruning.

Davide Ferre', Frédéric Giroire, Frederik Mallmann-Trenn + 1 more2026-03-05🤖 cs.AI

A Unified Revisit of Temperature in Classification-Based Knowledge Distillation

Dit artikel biedt een gestructureerde analyse van de interactie tussen de temperatuurparameter en andere trainingscomponenten in classificatie-gebaseerde kennisdistillatie, met als doel praktische richtlijnen te geven voor het selecteren van een optimale temperatuur.

Logan Frank, Jim Davis2026-03-05🤖 cs.LG

Causal Learning Should Embrace the Wisdom of the Crowd

Dit paper pleit voor een nieuw paradigma in causaal leren dat de wijsheid van de menigte benut door een systematisch kader te introduceren voor het synthetiseren van gefragmenteerde kennis van menselijke experts en LLM-agenten om complexe causale structuren te reconstrueren die individuele agenten niet kunnen ontdekken.

Ryan Feng Lin, Yuantao Wei, Huiling Liao + 2 more2026-03-05🤖 cs.LG

Toward Early Quality Assessment of Text-to-Image Diffusion Models

Deze paper introduceert Probe-Select, een plug-in module die de kwaliteit van gegenereerde afbeeldingen al vroeg in het generatieproces voorspelt op basis van tussentijdse activaties, waardoor de samplingkosten met meer dan 60% worden verlaagd en alleen veelbelovende seeds worden voltooid.

Huanlei Guo, Hongxin Wei, Bingyi Jing2026-03-05🤖 cs.LG

Learning in Markov Decision Processes with Exogenous Dynamics

Deze studie toont aan dat het benutten van exogene dynamiek in Markov-beslissingsprocessen leidt tot aanzienlijk betere leergaranties en steekproefefficiëntie, waarbij de regretgrenzen slechts afhankelijk zijn van de grootte van de exogene toestandsruimte.

Davide Maran, Davide Salaorni, Marcello Restelli2026-03-05🤖 cs.LG

AriadneMem: Threading the Maze of Lifelong Memory for LLM Agents

Het paper introduceert AriadneMem, een gestructureerd geheugensysteem voor LLM-agenten dat middels een gefaseerde aanpak met entropiebewuste filtering en conflictbewuste samenvoeging de uitdagingen van losgekoppelde bewijslast en statische updates oplost, wat resulteert in aanzienlijke verbeteringen in meerhop-precisie en een drastische reductie van de runtime.

Wenhui Zhu, Xiwen Chen, Zhipeng Wang + 11 more2026-03-05🤖 cs.AI

Fine-Tuning and Evaluating Conversational AI for Agricultural Advisory

Dit paper introduceert een hybride LLM-architectuur voor landbouwadvies die, door gesuperviseerde fine-tuning op gecureerde feiten en een aparte 'stitching'-laag voor veiligheidsbewuste communicatie, nauwkeurigere en veiliger antwoorden biedt voor kleine boeren in Bihar, India, dan standaardmodellen.

Sanyam Singh, Naga Ganesh, Vineet Singh + 8 more2026-03-05🤖 cs.AI

TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement

Dit artikel introduceert TTSR, een zelfreflecterend testtijd-trainingsframework dat de redeneerprestaties van grote taalmodellen verbetert door een voortdurende cyclus waarin het model als leraar en leerling optreedt om gerichte variantvragen te genereren op basis van eerdere fouten.

Haoyang He, Zihua Rong, Liangjie Zhao + 3 more2026-03-05🤖 cs.AI

From Exact Hits to Close Enough: Semantic Caching for LLM Embeddings

Dit paper onderzoekt semantische caching voor LLM-embeddings, bewijst dat het vinden van een optimale offline beleid NP-moeilijk is, en stelt polynomiale heuristieken en online beleidsregels voor die de prestaties verbeteren ten opzichte van bestaande methoden.

Dvir David Biton, Roy Friedman2026-03-05🤖 cs.AI

Knowledge Graph and Hypergraph Transformers with Repository-Attention and Journey-Based Role Transport

Dit paper introduceert een compacte architectuur die kennisgrafieken en hypergrafieken via repository-attention en rollen-gebaseerd transport integreert met taalmodellen, waardoor gescheiden maar nauw op elkaar afgestemde representaties van gestructureerde kennis en linguïstische context mogelijk worden.

Mahesh Godavarti2026-03-05🤖 cs.AI

Draft-Conditioned Constrained Decoding for Structured Generation in LLMs

Dit paper introduceert Draft-Conditioned Constrained Decoding (DCCD), een trainingsvrije methode die de semantische planning en structurele validatie ontkoppelt om de nauwkeurigheid van gestructureerde generatie in taalmodellen aanzienlijk te verbeteren zonder de modelgrootte te vergroten.

Avinash Reddy, Thayne T. Walker, James S. Ide + 1 more2026-03-05🤖 cs.AI

Entropic-Time Inference: Self-Organizing Large Language Model Decoding Beyond Attention

Dit artikel introduceert 'entropic-time inference', een nieuw paradigma voor LLM-inferentie dat generatie stuurt via een zelforganiserende architectuur die uncertainty-flow, planning en temperatuurregeling verenigt onder een gemeenschappelijke entropiedoelstelling om computationele middelen efficiënter toe te wijzen dan traditionele token-gebaseerde methoden.

Andrew Kiruluta2026-03-05🤖 cs.LG

Towards Self-Robust LLMs: Intrinsic Prompt Noise Resistance via CoIPO

Deze paper introduceert CoIPO, een methode die gebruikmaakt van contrastief leren en inverse directe voorkeursoptimalisatie om de intrinsieke weerstand van grote taalmodellen tegen ruis in prompts te verbeteren, wat resulteert in een aanzienlijke prestatieverbetering op de nieuwe NoisyPromptBench-benchmark.

Xin Yang, Letian Li, Abudukelimu Wuerkaixi + 5 more2026-03-05🤖 cs.AI

← Vorige Volgende →