cs.AI papers | Gist.Science

From Next Token Prediction to (STRIPS) World Models

Dit onderzoek toont aan dat zowel gespecialiseerde symbolische modellen als standaard transformatoren met stick-breaking-attention effectief STRIPS-wereldmodellen kunnen leren uit actietraces om planning over onbekende toestanden en doelen mogelijk te maken, waarbij de standaardtransformatoren echter beter generaliseren en makkelijker te optimaliseren zijn.

Carlos Núñez-Molina, Vicenç Gómez, Hector Geffner2026-03-12🤖 cs.AI

Global Minimizers of Sigmoid Contrastive Loss

Dit artikel biedt een theoretische verklaring voor de voordelen van het synchroniseren van trainbare inverse temperatuur en bias onder de sigmoid-verliesfunctie, zoals gebruikt in SigLIP-modellen, door een nieuw combinatorisch object genaamd $(\mathsf{m}, \mathsf{b}_{\mathsf{rel}})$ -Constellations te introduceren dat de succesvolle prestaties, de modale kloof en de benodigde dimensie voor kwalitatief hoogwaardige representaties verklaart.

Kiril Bangachev, Guy Bresler, Iliyas Noman, Yury Polyanskiy2026-03-12🤖 cs.LG

RADAR: Reasoning-Ability and Difficulty-Aware Routing for Reasoning LLMs

Het paper introduceert RADAR, een lichtgewicht en interpreteerbaar routeringskader dat, geïnspireerd door psychometrie, query's dynamisch toewijst aan de meest geschikte reasoning-LLM-configuratie op basis van de moeilijkheidsgraad van de vraag en het beschikbare reasoning-budget om zo de prestaties te maximaliseren en de kosten te optimaliseren.

Nigel Fernandez, Branislav Kveton, Ryan A. Rossi, Andrew S. Lan, Zichao Wang2026-03-12🤖 cs.AI

BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models

Dit paper introduceert een benchmark om de systematische bias in de tool-selectie van LLM-agents te kwantificeren, identificeert metadata en pre-training als belangrijkste oorzaken, en stelt een lichtgewicht mitigatiestrategie voor om deze onrechtvaardige voorkeuren te verminderen.

Thierry Blankenstein, Jialin Yu, Zixuan Li, Vassilis Plachouras, Sunando Sengupta, Philip Torr, Yarin Gal, Alasdair Paren, Adel Bibi2026-03-12🤖 cs.AI

MonitorVLM:A Vision Language Framework for Safety Violation Detection in Mining Operations

Dit paper introduceert MonitorVLM, een nieuw visueel-taalframework dat automatisch veiligheidsvoorschriften schendingen in mijnbouw detecteert door middel van een gespecialiseerd dataset, een clausulefilter en een gedragversterker, wat leidt tot aanzienlijk betere prestaties dan bestaande modellen.

Jiang Wu, Sichao Wu, Yinsong Ma, Guangyuan Yu, Haoyuan Xu, Lifang Zheng, Jingliang Duan2026-03-12🤖 cs.AI

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

Dit artikel presenteert de eerste systematische evaluatie van zelftoezichthoudend leren (SSL) voor slaapstadiëring met draagbare EEG, waarbij wordt aangetoond dat deze aanpak de prestaties aanzienlijk verbetert en klinisch bruikbare nauwkeurigheid bereikt met slechts 5% tot 10% van de benodigde gelabelde data.

Emilio Estevan, María Sierra-Torralba, Eduardo López-Larraz, Luis Montesano2026-03-12🤖 cs.AI

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Het paper introduceert HyWA, een methode die hypernetwerken gebruikt om gepersonaliseerde gewichten voor een standaard spraakactiviteitsdetectiemodel te genereren, wat leidt tot betere prestaties en eenvoudigere implementatie dan bestaande technieken.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi Nia2026-03-12⚡ eess

Reveal-to-Revise: Explainable Bias-Aware Generative Modeling with Multimodal Attention

Deze paper introduceert een uitlegbaar, bias-bewust generatief model dat cross-modale aandacht, Grad-CAM++-attributie en een 'Reveal-to-Revise'-feedbacklus verenigt om zowel de prestaties als de eerlijkheid en robuustheid van AI-systemen in multimodale en tekstuele toepassingen te verbeteren.

Noor Islam S. Mohammad, Md Muntaqim Meherab2026-03-12🤖 cs.LG

MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion

Dit paper introduceert MVCustom, een nieuw diffusion-gebaseerd framework dat geometrisch consistente meerbeeldgeneratie combineert met promptgestuurde aanpassing door middel van een feature-field representatie en innovatieve inferencetechnieken voor dieptebewust rendering en latente voltooiing.

Minjung Shin, Hyunin Cho, Sooyeon Go, Jin-Hwa Kim, Youngjung Uh2026-03-12🤖 cs.AI

Predicting kernel regression learning curves from only raw data statistics

Dit paper introduceert het Hermite-eigenstructuur-ansatz (HEA), een theoretisch raamwerk dat leercurves voor kernelregressie op realistische datasets voorspelt door uitsluitend gebruik te maken van ruwe datastatistieken, en toont aan dat dit model ook de leerorde van MLP's in het kenmerkleerregime nauwkeurig beschrijft.

Dhruva Karkada, Joseph Turnbull, Yuxi Liu, James B. Simon2026-03-12🤖 cs.LG

KV Cache Transform Coding for Compact Storage in LLM Inference

Het artikel introduceert KVTC, een lichtgewicht coderingstechniek die de Key-Value-cache van grote taalmodellen met tot 20 keer comprimeert door decorrelatie, adaptieve kwantisatie en entropiecodering toe te passen, waardoor het GPU-geheugenverbruik aanzienlijk wordt verlaagd zonder in te leveren op de nauwkeurigheid.

Konrad Staniszewski, Adrian Łancucki2026-03-12💬 cs.CL

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study

Deze studie evalueert zes LLM-systemen op hun vermogen om als expert te reageren op complexe vragen over hoogtemperatuur-supergeleiding en concludeert dat systemen met retrieval-augmented generation (RAG) op een door experts samengestelde dataset betere prestaties leveren dan gesloten modellen.

Haoyu Guo, Maria Tikhanovskaya, Paul Raccuglia + 20 more2026-03-12🤖 cs.AI

DeepEyesV2: Toward Agentic Multimodal Model

In dit artikel wordt DeepEyesV2 geïntroduceerd, een agentic multimodaal model dat door middel van een twee-traps trainingspipeline (koude start gevolgd door versterkingsleren) en een nieuw benchmark RealX-Bench effectief externe hulpmiddelen zoals code-uitvoering en webzoekopdrachten integreert in complexe redeneertaken.

Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu2026-03-12🤖 cs.AI

What We Don't C: Manifold Disentanglement for Structured Discovery

Dit paper introduceert "What We Don't C", een nieuwe methode op basis van latent flow matching die latente subruimten ontrafelt door conditionele informatie expliciet te verwijderen, waardoor residuale representaties ontstaan die factoren van variatie blootleggen die niet in de conditionering waren opgenomen.

Brian Rogers, Micah Bowles, Chris J. Lintott, Steve Croft, Oliver N. F. King, James Kostas Ray2026-03-12🤖 cs.AI

D-GAP: Improving Out-of-Domain Robustness via Dataset-Agnostic and Gradient-Guided Augmentation in Frequency and Pixel Spaces

Dit paper introduceert D-GAP, een dataset-onafhankelijke en gradiënt-gestuurde augmentatiemethode die de out-of-domain robuustheid van computer-visionmodellen verbetert door gerichte verstoringen toe te passen in zowel de frequentie- als pixelruimte om leerbias te verminderen en details te behouden.

Ruoqi Wang, Haitao Wang, Shaojie Guo, Qiong Luo2026-03-12🤖 cs.AI

STREAM-VAE: Dual-Path Routing for Slow and Fast Dynamics in Vehicle Telemetry Anomaly Detection

Dit paper introduceert STREAM-VAE, een variational autoencoder met een dual-path architectuur die langzame drifts en snelle pieken in voertuigtelemetrie expliciet scheidt om de robuustheid en betrouwbaarheid van anomaliedetectie te verbeteren.

Kadir-Kaan Özer, René Ebeling, Markus Enzweiler2026-03-12🤖 cs.LG

REMSA: Foundation Model Selection for Remote Sensing via a Constraint-Aware Agent

Dit paper introduceert REMSA, een constraint-aware agent die gebaseerd is op de gestructureerde RSFM-database en natuurlijke taalverwerking gebruikt om de meest geschikte foundation model voor specifieke remote sensing-taken automatisch te selecteren en te verantwoorden.

Binger Chen, Tacettin Emre Bök, Behnood Rasti, Volker Markl, Begüm Demir2026-03-12🤖 cs.AI

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

Deze paper introduceert een hiërarchisch dubbelstrategisch kader voor selectief vergeten in medische grote taalmodellen dat, door het combineren van geometrisch beperkte gradiëntupdates en conceptbewuste tokeninterventies, specifieke privacygevoelige kennis effectief verwijdert terwijl fundamentele medische competenties behouden blijven en slechts 0,1% van de parameters wordt aangepast.

Yi Zhang, Chao Zhang, Zijian Li, Tianxiang Xu, Kunyu Zhang, Zhan Gao, Meinuo Li, Xiaohan Zhang, Qichao Qi, Bing Chen2026-03-12🤖 cs.LG

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

Het paper introduceert CostNav, een nieuw benchmark voor fysieke AI-agenten dat navigatieprestaties evalueert op basis van realistische economische kosten en inkomsten door gebruik te maken van industriestandaarddata, en onthult dat bestaande methoden voor autonome bezorging nog niet economisch levensvatbaar zijn.

Haebin Seong, Sungmin Kim, Yongjun Cho, Myunchul Joe, Geunwoo Kim, Yubeen Park, Sunhoo Kim, Yoonshik Kim, Suhwan Choi, Jaeyoon Jung, Jiyong Youn, Jinmyung Kwak, Sunghee Ahn, Jaemin Lee, Younggil Do, Seungyeop Yi, Woojin Cheong, Minhyeok Oh, Minchan Kim, Seongjae Kang, Samwoo Seong, Youngjae Yu, Yunsung Lee2026-03-12🤖 cs.AI

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

Dit paper introduceert IndiMathBench, een door mensen geverifieerd benchmark voor het evalueren van wiskundig redeneren in Lean 4, dat is samengesteld uit 312 problemen van Indiase wiskunde-olympiades via een AI-gestuurde, menselijk ondersteunde pipeline en aantoont dat geautomatiseerde formalisatie ondanks iteratieve verfijning nog steeds aanzienlijke uitdagingen kent.

Param Biyani, Shashank Kirtania, Yasharth Bajpai, Sumit Gulwani, Ashish Tiwari2026-03-12🤖 cs.AI

← Vorige Volgende →

cs.AI