cs.AI papers | Gist.Science

BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models

Dit paper introduceert een benchmark om de systematische bias in de tool-selectie van LLM-agents te kwantificeren, identificeert metadata en pre-training als belangrijkste oorzaken, en stelt een lichtgewicht mitigatiestrategie voor om deze onrechtvaardige voorkeuren te verminderen.

Thierry Blankenstein, Jialin Yu, Zixuan Li, Vassilis Plachouras, Sunando Sengupta, Philip Torr, Yarin Gal, Alasdair Paren, Adel Bibi2026-03-12🤖 cs.AI

MonitorVLM:A Vision Language Framework for Safety Violation Detection in Mining Operations

Dit paper introduceert MonitorVLM, een nieuw visueel-taalframework dat automatisch veiligheidsvoorschriften schendingen in mijnbouw detecteert door middel van een gespecialiseerd dataset, een clausulefilter en een gedragversterker, wat leidt tot aanzienlijk betere prestaties dan bestaande modellen.

Jiang Wu, Sichao Wu, Yinsong Ma, Guangyuan Yu, Haoyuan Xu, Lifang Zheng, Jingliang Duan2026-03-12🤖 cs.AI

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

Dit artikel presenteert de eerste systematische evaluatie van zelftoezichthoudend leren (SSL) voor slaapstadiëring met draagbare EEG, waarbij wordt aangetoond dat deze aanpak de prestaties aanzienlijk verbetert en klinisch bruikbare nauwkeurigheid bereikt met slechts 5% tot 10% van de benodigde gelabelde data.

Emilio Estevan, María Sierra-Torralba, Eduardo López-Larraz, Luis Montesano2026-03-12🤖 cs.AI

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Het paper introduceert HyWA, een methode die hypernetwerken gebruikt om gepersonaliseerde gewichten voor een standaard spraakactiviteitsdetectiemodel te genereren, wat leidt tot betere prestaties en eenvoudigere implementatie dan bestaande technieken.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi Nia2026-03-12⚡ eess

Reveal-to-Revise: Explainable Bias-Aware Generative Modeling with Multimodal Attention

Deze paper introduceert een uitlegbaar, bias-bewust generatief model dat cross-modale aandacht, Grad-CAM++-attributie en een 'Reveal-to-Revise'-feedbacklus verenigt om zowel de prestaties als de eerlijkheid en robuustheid van AI-systemen in multimodale en tekstuele toepassingen te verbeteren.

Noor Islam S. Mohammad, Md Muntaqim Meherab2026-03-12🤖 cs.LG

MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion

Dit paper introduceert MVCustom, een nieuw diffusion-gebaseerd framework dat geometrisch consistente meerbeeldgeneratie combineert met promptgestuurde aanpassing door middel van een feature-field representatie en innovatieve inferencetechnieken voor dieptebewust rendering en latente voltooiing.

Minjung Shin, Hyunin Cho, Sooyeon Go, Jin-Hwa Kim, Youngjung Uh2026-03-12🤖 cs.AI

Predicting kernel regression learning curves from only raw data statistics

Dit paper introduceert het Hermite-eigenstructuur-ansatz (HEA), een theoretisch raamwerk dat leercurves voor kernelregressie op realistische datasets voorspelt door uitsluitend gebruik te maken van ruwe datastatistieken, en toont aan dat dit model ook de leerorde van MLP's in het kenmerkleerregime nauwkeurig beschrijft.

Dhruva Karkada, Joseph Turnbull, Yuxi Liu, James B. Simon2026-03-12🤖 cs.LG

KV Cache Transform Coding for Compact Storage in LLM Inference

Het artikel introduceert KVTC, een lichtgewicht coderingstechniek die de Key-Value-cache van grote taalmodellen met tot 20 keer comprimeert door decorrelatie, adaptieve kwantisatie en entropiecodering toe te passen, waardoor het GPU-geheugenverbruik aanzienlijk wordt verlaagd zonder in te leveren op de nauwkeurigheid.

Konrad Staniszewski, Adrian Łancucki2026-03-12💬 cs.CL

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study

Deze studie evalueert zes LLM-systemen op hun vermogen om als expert te reageren op complexe vragen over hoogtemperatuur-supergeleiding en concludeert dat systemen met retrieval-augmented generation (RAG) op een door experts samengestelde dataset betere prestaties leveren dan gesloten modellen.

Haoyu Guo, Maria Tikhanovskaya, Paul Raccuglia + 20 more2026-03-12🤖 cs.AI

DeepEyesV2: Toward Agentic Multimodal Model

In dit artikel wordt DeepEyesV2 geïntroduceerd, een agentic multimodaal model dat door middel van een twee-traps trainingspipeline (koude start gevolgd door versterkingsleren) en een nieuw benchmark RealX-Bench effectief externe hulpmiddelen zoals code-uitvoering en webzoekopdrachten integreert in complexe redeneertaken.

Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu2026-03-12🤖 cs.AI

What We Don't C: Manifold Disentanglement for Structured Discovery

Dit paper introduceert "What We Don't C", een nieuwe methode op basis van latent flow matching die latente subruimten ontrafelt door conditionele informatie expliciet te verwijderen, waardoor residuale representaties ontstaan die factoren van variatie blootleggen die niet in de conditionering waren opgenomen.

Brian Rogers, Micah Bowles, Chris J. Lintott, Steve Croft, Oliver N. F. King, James Kostas Ray2026-03-12🤖 cs.AI

D-GAP: Improving Out-of-Domain Robustness via Dataset-Agnostic and Gradient-Guided Augmentation in Frequency and Pixel Spaces

Dit paper introduceert D-GAP, een dataset-onafhankelijke en gradiënt-gestuurde augmentatiemethode die de out-of-domain robuustheid van computer-visionmodellen verbetert door gerichte verstoringen toe te passen in zowel de frequentie- als pixelruimte om leerbias te verminderen en details te behouden.

Ruoqi Wang, Haitao Wang, Shaojie Guo, Qiong Luo2026-03-12🤖 cs.AI

STREAM-VAE: Dual-Path Routing for Slow and Fast Dynamics in Vehicle Telemetry Anomaly Detection

Dit paper introduceert STREAM-VAE, een variational autoencoder met een dual-path architectuur die langzame drifts en snelle pieken in voertuigtelemetrie expliciet scheidt om de robuustheid en betrouwbaarheid van anomaliedetectie te verbeteren.

Kadir-Kaan Özer, René Ebeling, Markus Enzweiler2026-03-12🤖 cs.LG

REMSA: Foundation Model Selection for Remote Sensing via a Constraint-Aware Agent

Dit paper introduceert REMSA, een constraint-aware agent die gebaseerd is op de gestructureerde RSFM-database en natuurlijke taalverwerking gebruikt om de meest geschikte foundation model voor specifieke remote sensing-taken automatisch te selecteren en te verantwoorden.

Binger Chen, Tacettin Emre Bök, Behnood Rasti, Volker Markl, Begüm Demir2026-03-12🤖 cs.AI

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

Deze paper introduceert een hiërarchisch dubbelstrategisch kader voor selectief vergeten in medische grote taalmodellen dat, door het combineren van geometrisch beperkte gradiëntupdates en conceptbewuste tokeninterventies, specifieke privacygevoelige kennis effectief verwijdert terwijl fundamentele medische competenties behouden blijven en slechts 0,1% van de parameters wordt aangepast.

Yi Zhang, Chao Zhang, Zijian Li, Tianxiang Xu, Kunyu Zhang, Zhan Gao, Meinuo Li, Xiaohan Zhang, Qichao Qi, Bing Chen2026-03-12🤖 cs.LG

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

Het paper introduceert CostNav, een nieuw benchmark voor fysieke AI-agenten dat navigatieprestaties evalueert op basis van realistische economische kosten en inkomsten door gebruik te maken van industriestandaarddata, en onthult dat bestaande methoden voor autonome bezorging nog niet economisch levensvatbaar zijn.

Haebin Seong, Sungmin Kim, Yongjun Cho, Myunchul Joe, Geunwoo Kim, Yubeen Park, Sunhoo Kim, Yoonshik Kim, Suhwan Choi, Jaeyoon Jung, Jiyong Youn, Jinmyung Kwak, Sunghee Ahn, Jaemin Lee, Younggil Do, Seungyeop Yi, Woojin Cheong, Minhyeok Oh, Minchan Kim, Seongjae Kang, Samwoo Seong, Youngjae Yu, Yunsung Lee2026-03-12🤖 cs.AI

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

Dit paper introduceert IndiMathBench, een door mensen geverifieerd benchmark voor het evalueren van wiskundig redeneren in Lean 4, dat is samengesteld uit 312 problemen van Indiase wiskunde-olympiades via een AI-gestuurde, menselijk ondersteunde pipeline en aantoont dat geautomatiseerde formalisatie ondanks iteratieve verfijning nog steeds aanzienlijke uitdagingen kent.

Param Biyani, Shashank Kirtania, Yasharth Bajpai, Sumit Gulwani, Ashish Tiwari2026-03-12🤖 cs.AI

World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty

Deze paper introduceert C3, een methode voor onzekerheidskwantificatie die controllable videomodellen in staat stelt om hun eigen onzekerheid te beoordelen en te visualiseren, waardoor hallucinaties worden verminderd en betrouwbare toepassing in robotica mogelijk wordt gemaakt.

Zhiting Mei, Tenny Yin, Micah Baker, Ola Shorinwa, Anirudha Majumdar2026-03-12🤖 cs.AI

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

Dit paper introduceert Trio, een innovatief framework dat fragmentgebaseerde taalmodellen, versterkingsleer en Monte Carlo-baanzoek combineert om een gesloten lus voor doelgerichte moleculaire ontdekking te creëren die de binding, geneeskrachtigheid en synthetische haalbaarheid van nieuwe liganden significant verbetert.

Junkai Ji, Zhangfan Yang, Dong Xu, Ruibin Bai, Jianqiang Li, Tingjun Hou, Zexuan Zhu2026-03-12🤖 cs.AI

Maximum Risk Minimization with Random Forests

Deze paper introduceert en analyseert varianten van random forests die gebaseerd zijn op het principe van maximum risicominimalisatie (MaxRM) om de generalisatie over verschillende omgevingen te verbeteren, waarbij de auteurs efficiënte algoritmen, statistische consistentie en nieuwe out-of-sample garanties bieden.

Francesco Freni, Anya Fries, Linus Kühne, Markus Reichstein, Jonas Peters2026-03-12📊 stat

← Vorige Volgende →

cs.AI