cs.AI papers | Gist.Science

KV Cache Transform Coding for Compact Storage in LLM Inference

Het artikel introduceert KVTC, een lichtgewicht coderingstechniek die de Key-Value-cache van grote taalmodellen met tot 20 keer comprimeert door decorrelatie, adaptieve kwantisatie en entropiecodering toe te passen, waardoor het GPU-geheugenverbruik aanzienlijk wordt verlaagd zonder in te leveren op de nauwkeurigheid.

Konrad Staniszewski, Adrian Łancucki2026-03-12💬 cs.CL

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study

Deze studie evalueert zes LLM-systemen op hun vermogen om als expert te reageren op complexe vragen over hoogtemperatuur-supergeleiding en concludeert dat systemen met retrieval-augmented generation (RAG) op een door experts samengestelde dataset betere prestaties leveren dan gesloten modellen.

Haoyu Guo, Maria Tikhanovskaya, Paul Raccuglia + 20 more2026-03-12🤖 cs.AI

DeepEyesV2: Toward Agentic Multimodal Model

In dit artikel wordt DeepEyesV2 geïntroduceerd, een agentic multimodaal model dat door middel van een twee-traps trainingspipeline (koude start gevolgd door versterkingsleren) en een nieuw benchmark RealX-Bench effectief externe hulpmiddelen zoals code-uitvoering en webzoekopdrachten integreert in complexe redeneertaken.

Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu2026-03-12🤖 cs.AI

What We Don't C: Manifold Disentanglement for Structured Discovery

Dit paper introduceert "What We Don't C", een nieuwe methode op basis van latent flow matching die latente subruimten ontrafelt door conditionele informatie expliciet te verwijderen, waardoor residuale representaties ontstaan die factoren van variatie blootleggen die niet in de conditionering waren opgenomen.

Brian Rogers, Micah Bowles, Chris J. Lintott, Steve Croft, Oliver N. F. King, James Kostas Ray2026-03-12🤖 cs.AI

D-GAP: Improving Out-of-Domain Robustness via Dataset-Agnostic and Gradient-Guided Augmentation in Frequency and Pixel Spaces

Dit paper introduceert D-GAP, een dataset-onafhankelijke en gradiënt-gestuurde augmentatiemethode die de out-of-domain robuustheid van computer-visionmodellen verbetert door gerichte verstoringen toe te passen in zowel de frequentie- als pixelruimte om leerbias te verminderen en details te behouden.

Ruoqi Wang, Haitao Wang, Shaojie Guo, Qiong Luo2026-03-12🤖 cs.AI

STREAM-VAE: Dual-Path Routing for Slow and Fast Dynamics in Vehicle Telemetry Anomaly Detection

Dit paper introduceert STREAM-VAE, een variational autoencoder met een dual-path architectuur die langzame drifts en snelle pieken in voertuigtelemetrie expliciet scheidt om de robuustheid en betrouwbaarheid van anomaliedetectie te verbeteren.

Kadir-Kaan Özer, René Ebeling, Markus Enzweiler2026-03-12🤖 cs.LG

REMSA: Foundation Model Selection for Remote Sensing via a Constraint-Aware Agent

Dit paper introduceert REMSA, een constraint-aware agent die gebaseerd is op de gestructureerde RSFM-database en natuurlijke taalverwerking gebruikt om de meest geschikte foundation model voor specifieke remote sensing-taken automatisch te selecteren en te verantwoorden.

Binger Chen, Tacettin Emre Bök, Behnood Rasti, Volker Markl, Begüm Demir2026-03-12🤖 cs.AI

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

Deze paper introduceert een hiërarchisch dubbelstrategisch kader voor selectief vergeten in medische grote taalmodellen dat, door het combineren van geometrisch beperkte gradiëntupdates en conceptbewuste tokeninterventies, specifieke privacygevoelige kennis effectief verwijdert terwijl fundamentele medische competenties behouden blijven en slechts 0,1% van de parameters wordt aangepast.

Yi Zhang, Chao Zhang, Zijian Li, Tianxiang Xu, Kunyu Zhang, Zhan Gao, Meinuo Li, Xiaohan Zhang, Qichao Qi, Bing Chen2026-03-12🤖 cs.LG

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

Het paper introduceert CostNav, een nieuw benchmark voor fysieke AI-agenten dat navigatieprestaties evalueert op basis van realistische economische kosten en inkomsten door gebruik te maken van industriestandaarddata, en onthult dat bestaande methoden voor autonome bezorging nog niet economisch levensvatbaar zijn.

Haebin Seong, Sungmin Kim, Yongjun Cho, Myunchul Joe, Geunwoo Kim, Yubeen Park, Sunhoo Kim, Yoonshik Kim, Suhwan Choi, Jaeyoon Jung, Jiyong Youn, Jinmyung Kwak, Sunghee Ahn, Jaemin Lee, Younggil Do, Seungyeop Yi, Woojin Cheong, Minhyeok Oh, Minchan Kim, Seongjae Kang, Samwoo Seong, Youngjae Yu, Yunsung Lee2026-03-12🤖 cs.AI

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

Dit paper introduceert IndiMathBench, een door mensen geverifieerd benchmark voor het evalueren van wiskundig redeneren in Lean 4, dat is samengesteld uit 312 problemen van Indiase wiskunde-olympiades via een AI-gestuurde, menselijk ondersteunde pipeline en aantoont dat geautomatiseerde formalisatie ondanks iteratieve verfijning nog steeds aanzienlijke uitdagingen kent.

Param Biyani, Shashank Kirtania, Yasharth Bajpai, Sumit Gulwani, Ashish Tiwari2026-03-12🤖 cs.AI

World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty

Deze paper introduceert C3, een methode voor onzekerheidskwantificatie die controllable videomodellen in staat stelt om hun eigen onzekerheid te beoordelen en te visualiseren, waardoor hallucinaties worden verminderd en betrouwbare toepassing in robotica mogelijk wordt gemaakt.

Zhiting Mei, Tenny Yin, Micah Baker, Ola Shorinwa, Anirudha Majumdar2026-03-12🤖 cs.AI

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

Dit paper introduceert Trio, een innovatief framework dat fragmentgebaseerde taalmodellen, versterkingsleer en Monte Carlo-baanzoek combineert om een gesloten lus voor doelgerichte moleculaire ontdekking te creëren die de binding, geneeskrachtigheid en synthetische haalbaarheid van nieuwe liganden significant verbetert.

Junkai Ji, Zhangfan Yang, Dong Xu, Ruibin Bai, Jianqiang Li, Tingjun Hou, Zexuan Zhu2026-03-12🤖 cs.AI

Maximum Risk Minimization with Random Forests

Deze paper introduceert en analyseert varianten van random forests die gebaseerd zijn op het principe van maximum risicominimalisatie (MaxRM) om de generalisatie over verschillende omgevingen te verbeteren, waarbij de auteurs efficiënte algoritmen, statistische consistentie en nieuwe out-of-sample garanties bieden.

Francesco Freni, Anya Fries, Linus Kühne, Markus Reichstein, Jonas Peters2026-03-12📊 stat

GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

GTR-Turbo is een efficiëntere methode voor het trainen van multi-modale agenten die de afhankelijkheid van dure leraarmodellen elimineert door gewichten van checkpoints te samenvoegen tot een gratis leraar, wat leidt tot betere prestaties en aanzienlijk lagere kosten.

Tong Wei, Yijun Yang, Changhao Zhang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye2026-03-12🤖 cs.AI

Pretrained battery transformer (PBT): A foundation model for universal battery life prediction

Dit artikel introduceert de Pretrained Battery Transformer (PBT), het eerste fundamentele model dat door middel van transfer learning en een mengsel van experts gespecialiseerde kennis leert uit heterogene data, waardoor het de nauwkeurigheid van de voorspelling van de levensduur van batterijen aanzienlijk verbetert over diverse chemieën en omstandigheden heen.

Ruifeng Tan, Weixiang Hong, Jia Li, Jiaqiang Huang, Tong-Yi Zhang2026-03-12🤖 cs.LG

Enhancing Tree Species Classification: Insights from YOLOv8 and Explainable AI Applied to TLS Point Cloud Projections

Dit onderzoek toont aan dat YOLOv8, gecombineerd met de Finer-CAM-techniek voor explainable AI, een nauwkeurige en interpreteerbare methode biedt voor het classificeren van zeven Europese boomsoorten op basis van TLS-puntwolkprojecties, waarbij de modellen voornamelijk vertrouwen op kroongebieden maar ook stamkenmerken benutten voor specifieke soorten.

Adrian Straker, Paul Magdon, Marco Zullich, Maximilian Freudenberg, Christoph Kleinn, Johannes Breidenbach, Stefano Puliti, Nils Noelke2026-03-12🤖 cs.AI

The Bayesian Geometry of Transformer Attention

Dit paper introduceert 'Bayese windtunnels' om aan te tonen dat transformatoren via een specifiek geometrisch mechanisme in hun residual streams en attention-lagen exacte Bayesiaanse inferentie uitvoeren, terwijl vergelijkbare MLP-architecturen hierin falen.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Dit artikel onthult dat cross-entropy-training in transformers via een gekoppeld dynamisch systeem van 'voordeel-gebaseerd routeren' en 'verantwoordelijkheids-gewogen updates' de interne geometrie vormgeeft, waardoor optimering leidt tot Bayesiaanse manifolds die in-context probabilistisch redeneren mogelijk maken.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Geometric Scaling of Bayesian Inference in LLMs

De studie toont aan dat moderne taalmodellen een meetkundige ondergrond behouden die Bayesiaanse inferentie mogelijk maakt, waarbij de onzekerheid wordt gecodeerd in een dominante as die correleert met voorspellende entropie, hoewel deze geometrie meer fungeert als een bevoorrechte afleesmechanisme dan als een enkelvoudig computatieknooppunt.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12🤖 cs.LG

Over-Searching in Search-Augmented Large Language Models

Dit artikel analyseert het fenomeen van 'over-searching' in zoekversterkte grote taalmodellen, introduceert de metriek Tokens Per Correctness (TPC) om de kosten-batenverhouding te kwantificeren, en biedt mitigatiestrategieën om de efficiëntie te verbeteren en hallucinaties te verminderen.

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra2026-03-12🤖 cs.LG

← Vorige Volgende →

cs.AI

KV Cache Transform Coding for Compact Storage in LLM Inference

Expert Evaluation of LLM World Models: A High-TcT_cTc​ Superconductivity Case Study

DeepEyesV2: Toward Agentic Multimodal Model

What We Don't C: Manifold Disentanglement for Structured Discovery

D-GAP: Improving Out-of-Domain Robustness via Dataset-Agnostic and Gradient-Guided Augmentation in Frequency and Pixel Spaces

STREAM-VAE: Dual-Path Routing for Slow and Fast Dynamics in Vehicle Telemetry Anomaly Detection

REMSA: Foundation Model Selection for Remote Sensing via a Constraint-Aware Agent

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

Maximum Risk Minimization with Random Forests

GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

Pretrained battery transformer (PBT): A foundation model for universal battery life prediction

Enhancing Tree Species Classification: Insights from YOLOv8 and Explainable AI Applied to TLS Point Cloud Projections

The Bayesian Geometry of Transformer Attention

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Geometric Scaling of Bayesian Inference in LLMs

Over-Searching in Search-Augmented Large Language Models

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study