cs.AI papers | Gist.Science

Resource-constrained Amazons chess decision framework integrating large language models and graph attention

Deze paper introduceert een lichtgewicht hybride framework dat grafische aandacht en grote taalmodellen combineert om een hoogpresterende Amazons-spel-AI te creëren die onder strikte rekenkrachtbeperkingen de prestaties van zijn basismodel overtreft door gebruik te maken van synthetische data en structurele filtering.

Tianhao Qian, Zhuoxuan Li, Jinde Cao, Xinli Shi, Hanjie Liu, Leszek Rutkowski2026-03-12🤖 cs.AI

IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

Dit paper introduceert IH-Challenge, een reinforcement learning-dataset die de instructiehiërarchie van frontier LLMs verbetert, waardoor de weerbaarheid tegen jailbreaks en prompt-injecties aanzienlijk toeneemt zonder de nuttigheid van het model te verminderen.

Chuan Guo (Michael Pokorny), Juan Felipe Ceron Uribe (Michael Pokorny), Sicheng Zhu (Michael Pokorny), Christopher A. Choquette-Choo (Michael Pokorny), Steph Lin (Michael Pokorny), Nikhil Kandpal (Michael Pokorny), Milad Nasr (Michael Pokorny), Rai (Michael Pokorny), Sam Toyer, Miles Wang, Yaodong Yu, Alex Beutel, Kai Xiao2026-03-12🤖 cs.AI

UAV-MARL: Multi-Agent Reinforcement Learning for Time-Critical and Dynamic Medical Supply Delivery

Dit artikel presenteert een multi-agent reinforcement learning-framework dat gebruikmaakt van Proximal Policy Optimization om UAV-vloten te coördineren voor tijdskritieke medische leveringen in dynamische omgevingen, waarbij experimenten met real-world data aantonen dat klassieke PPO-uitvoeringen superieure prestaties leveren ten opzichte van asynchrone en sequentiële strategieën.

Islam Guven, Mehmet Parlak2026-03-12🤖 cs.LG

Prompting with the human-touch: evaluating model-sensitivity of foundation models for musculoskeletal CT segmentation

Dit onderzoek evalueert de gevoeligheid van elf promptbare foundation modellen voor de segmentatie van musculoskeletale CT-beelden en concludeert dat de prestaties sterk variëren afhankelijk van de prompting-strategie en anatomische structuur, waarbij de prestaties met menselijke prompts lager zijn dan die met ideale prompts, wat de selectie van het meest geschikte model voor klinische toepassingen bemoeilijkt.

Caroline Magg, Maaike A. ter Wee, Johannes G. G. Dobbe, Geert J. Streekstra, Leendert Blankevoort, Clara I. Sánchez, Hoel Kervadec2026-03-12🤖 cs.AI

SCORE: Replacing Layer Stacking with Contractive Recurrent Depth

Het paper introduceert SCORE, een efficiënt alternatief voor klassieke laagstapeling dat door het herhaald toepassen van een gedeeld neuronaal blok met contractieve ODE-geïnspireerde updates, de convergentie versnelt en het parameteraantal verlaagt zonder ingewikkelde ODE-oplossers.

Guillaume Godin2026-03-12✓ Author reviewed ⓘ🤖 cs.LG

Towards Cognitive Defect Analysis in Active Infrared Thermography with Vision-Text Cues

Dit artikel introduceert een taalgeleid raamwerk voor cognitieve defectanalyse in actieve infraroodthermografie van CFK-materialen, dat gebruikmaakt van vooraf getrainde vision-language modellen en een lichte adapter om zero-shot defectdetectie mogelijk te maken zonder uitgebreide trainingsdatasets.

Mohammed Salah, Eman Ouda, Giuseppe Dell'Avvocato, Fabrizio Sarasini, Ester D'Accardi, Jorge Dias, Davor Svetinovic, Stefano Sfarra, Yusra Abdulrahman2026-03-12⚡ eess

Adaptive RAN Slicing Control via Reward-Free Self-Finetuning Agents

Dit artikel introduceert een nieuw zelf-finetuning framework dat generatieve AI-agenten in staat stelt om zonder handgemaakte beloningen continu te leren door ervaringen in hun parameters te distilleren, wat resulteert in superieure prestaties bij het dynamisch slice-beheer van Radio Access Networks (RAN) vergeleken met bestaande methoden.

Yuanhao Li, Haozhe Wang, Geyong Min, Nektarios Georgalas, Wang Miao2026-03-12🤖 cs.AI

CUAAudit: Meta-Evaluation of Vision-Language Models as Auditors of Autonomous Computer-Use Agents

Dit onderzoek presenteert CUAAudit, een meta-evaluatie van vijf Vision-Language Models als auditors voor autonome computergebruiksagenten, waarbij wordt geconcludeerd dat hoewel deze modellen veelbelovend zijn, ze aanzienlijke beperkingen vertonen in complexere omgevingen en aanzienlijke onenigheid tonen in hun beoordelingen, wat de noodzaak benadrukt om evaluatorbetrouwbaarheid en onzekerheid expliciet te adresseren bij de implementatie van dergelijke agenten.

Marta Sumyk, Oleksandr Kosovan2026-03-12🤖 cs.AI

Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

Deze empirische studie toont aan dat LLM-afstemming op morele redenering geen diversiteitsbevorderende algoritmen vereist, omdat standaard RLVR-methode voor beloningsmaximalisatie even effectief zijn dankzij de geconcentreerde aard van hoogwaardige morele antwoorden.

Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie2026-03-12🤖 cs.AI

Gradient Flow Drifting: Generative Modeling via Wasserstein Gradient Flows of KDE-Approximated Divergences

Dit paper introduceert het 'Gradient Flow Drifting'-framework, dat wiskundig aantoont dat het recente Drifting-model equivalent is aan een Wasserstijn-gradiëntstroom voor de forward KL-divergentie onder KDE-approximatie, en biedt een theoretisch onderbouwde strategie voor het combineren van divergenties om zowel modusinstorting als modusvervaging te voorkomen.

Jiarui Cao, Zixuan Wei, Yuxin Liu2026-03-12🤖 cs.LG

Recover to Predict: Progressive Retrospective Learning for Variable-Length Trajectory Prediction

Deze paper introduceert het Progressive Retrospective Framework (PRF), een plug-and-play methode die variabele lengte trajectvoorspelling verbetert door een cascade van retrospectieve eenheden te gebruiken om features van onvolledige observaties geleidelijk af te stemmen op die van volledige observaties.

Hao Zhou, Lu Qi, Jason Li, Jie Zhang, Yi Liu, Xu Yang, Mingyu Fan, Fei Luo2026-03-12🤖 cs.AI

Trajectory-Informed Memory Generation for Self-Improving Agent Systems

Deze paper introduceert een nieuw kader dat agenttrajecties analyseert om gestructureerde, contextuele leermomenten te genereren en op te halen, waardoor zelfverbeterende LLM-agenten hun prestaties aanzienlijk verbeteren door fouten te vermijden en succesvolle strategieën toe te passen.

Gaodan Fang, Vatche Isahagian, K. R. Jayaram, Ritesh Kumar, Vinod Muthusamy, Punleuk Oum, Gegi Thomas2026-03-12🤖 cs.AI

Reinforcement Learning with Conditional Expectation Reward

Dit artikel introduceert Conditional Expectation Reward (CER), een methode die grote taalmodellen gebruikt als impliciete verifiers om versterkingslering met verifieerbare beloningen uit te breiden naar domeinen met vrije antwoorden door een zachte, graduele beloning te bieden op basis van de waarschijnlijkheid van het genereren van een referentieantwoord.

Changyi Xiao, Caijun Xu, Yixin Cao2026-03-12🤖 cs.LG

Detecting and Eliminating Neural Network Backdoors Through Active Paths with Application to Intrusion Detection

Dit paper presenteert een nieuwe, verklaarbare aanpak om neurale netwerk-backdoors te detecteren en te elimineren door middel van actieve paden, met succesvolle experimenten in het domein van inbraakdetectie.

Eirik Høyheim, Magnus Wiik Eckhoff, Gudmund Grov, Robert Flood, David Aspinall2026-03-12🤖 cs.AI

Interleaving Scheduling and Motion Planning with Incremental Learning of Symbolic Space-Time Motion Abstractions

Deze paper introduceert een innovatief raamwerk voor het intermitterend plannen van taken en bewegingen dat door middel van een incrementele leerlus symbolische feedback van bewegingsplanners gebruikt om een bestaande planner te sturen naar haalbare oplossingen voor multi-object navigatie in gedeelde werkruimtes.

Elisa Tosello, Arthur Bit-Monnot, Davide Lusuardi, Alessandro Valentini, Andrea Micheli2026-03-12🤖 cs.AI

Are Video Reasoning Models Ready to Go Outside?

Deze paper introduceert ROVA, een trainingsframework dat de robuustheid van video-redeneringsmodellen tegen realistische verstoringen verbetert door middel van een bewustzijn voor moeilijkheidsgraad en consistentiebeloningen, en presenteert PVRBench als een nieuwe benchmark om deze prestaties te evalueren.

Yangfan He, Changgyu Boo, Jaehong Yoon2026-03-12🤖 cs.AI

FAME: Formal Abstract Minimal Explanation for Neural Networks

Dit paper introduceert FAME, een nieuwe methode voor formele abstracte minimale verklaringen van neurale netwerken die via geavanceerde perturbatiedomeinen en LiRPA-bounds schaalbaar is naar grote netwerken terwijl het de grootte van de verklaringen verkleint en de kwaliteit kwantificeert.

Ryma Boumazouza, Raya Elsaleh, Melanie Ducoffe, Shahaf Bassan, Guy Katz2026-03-12🤖 cs.AI

Emulating Clinician Cognition via Self-Evolving Deep Clinical Research

Het paper introduceert DxEvolve, een zelfevoluerend diagnostisch agent dat de kloof tussen klinische cognitie en huidige AI-systemen dicht door interactieve onderzoekswerkflows te gebruiken voor het autonomisch aanvragen van onderzoeken en het omzetten van ervaring in een beheersbaar leermiddel, wat resulteert in een significante verbetering van de diagnoseprecisie.

Ruiyang Ren, Yuhao Wang, Yunsen Liang, Lan Luo, Jing Liu, Haifeng Wang, Cong Feng, Yinan Zhang, Chunyan Miao, Ji-Rong Wen, Wayne Xin Zhao2026-03-12🤖 cs.AI

A Platform-Agnostic Multimodal Digital Human Modelling Framework: Neurophysiological Sensing in Game-Based Interaction

Dit artikel introduceert een platformonafhankelijk raamwerk voor digitaal mensmodelleer dat multimodale fysiologische sensoren (zoals EEG en EMG) en een reproduceerbare game-omgeving integreert om gestructureerde, tijdsgesynchroniseerde data te leveren voor toekomstige ethisch goedgekeurde AI-onderzoek naar toegankelijkheid en inclusie, zonder zelf AI-modellen of menselijke proefpersonen te gebruiken.

Daniel J. Buxton, Mufti Mahmud, Jordan J. Bird, Thomas Hughes-Roberts, David J. Brown2026-03-12🤖 cs.AI

Contract And Conquer: How to Provably Compute Adversarial Examples for a Black-Box Model?

Dit paper introduceert Contract And Conquer (CAC), een methode die via kennisdistillatie en een bewezen overdraagbaarheidsgarantie het zoekruimte voor adversariële voorbeelden in een black-box model contracteert om zo binnen een vast aantal iteraties een gegarandeerd adversariaal voorbeeld te vinden.

Anna Chistyakova, Mikhail Pautov2026-03-12🤖 cs.LG

← Vorige Volgende →