cs.AI papers | Gist.Science

Beyond Additivity: Sparse Isotonic Shapley Regression toward Nonlinear Explainability

Dit artikel introduceert Sparse Isotonic Shapley Regression (SISR), een geünificeerd raamwerk dat monotoon transformatie en sparsiteit combineert om de beperkingen van traditionele Shapley-waarden bij niet-lineaire afhankelijkheden en hoge dimensionaliteit te overwinnen en zo nauwkeurigere, stabielere en efficiëntere verklaringen voor AI-modellen te bieden.

Jialai She2026-03-10🤖 cs.LG

Parallel Decoder Transformer: Planner-Seeded Latent Coordination for Synchronized Parallel Decoding

Dit paper introduceert de Parallel Decoder Transformer (PDT), een architectuur die parallelle tekstgeneratie mogelijk maakt door een gefreezeerde decoder te verrijken met een planner-gestuurde latente werkruimte en een gesynchroniseerd multi-stream protocol voor interne coördinatie zonder externe orchestration.

Logan Robbins2026-03-10💬 cs.CL

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

Deze paper introduceert MaGRoad, een padgerichte methode voor robuuste extractie van wegnetwerken in off-road omgevingen, en presenteert tegelijkertijd het WildRoad-dataset om de bestaande beperkingen van bestaande modellen op te lossen.

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks

Dit artikel introduceert SALVE, een unificerend raamwerk dat mechanische interpreteerbaarheid en modelbewerking combineert door middel van een sparse autoencoder en Grad-FAM om neurale netwerken te ontdekken, valideren en permanent te controleren via precisie-ingrepen in de gewichtenruimte.

Vegard Flovik2026-03-10🤖 cs.LG

Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

Deze survey biedt een overzicht van de adaptatie van agenten op basis van grote taalmodellen na het vooraf trainen, waarbij een vierparadigmatisch raamwerk wordt gebruikt om methoden voor post-training, adaptief geheugen en vaardigheden te structureren, vergelijken en evalueren.

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han2026-03-10💬 cs.CL

Meta-RL Induces Exploration in Language Agents

Dit paper introduceert LaMer, een Meta-RL-framework dat grote taalmodelagenten in staat stelt om actief te exploreren en zich zonder gradiëntupdates aan te passen aan omgevingsfeedback, wat leidt tot aanzienlijke prestatieverbeteringen en betere generalisatie vergeleken met traditionele RL-baselines.

Yulun Jiang, Liangze Jiang, Damien Teney, Michael Moor, Maria Brbic2026-03-10🤖 cs.LG

ReDepth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting

Dit paper introduceert Re-Depth Anything, een testtijd-framework dat monokulaire diepsschatting verbetert door foundation modellen te combineren met grote 2D-diffusiemodellen via zelftoezicht op basis van hersynthese van belichting en Shape-from-Shading, zonder labels te vereisen.

Ananta R. Bhattarai, Helge Rhodin2026-03-10🤖 cs.LG

Cost Trade-offs of Reasoning and Non-Reasoning Large Language Models in Text-to-SQL

Deze studie toont aan dat reasoning-modellen in Text-to-SQL-systemen op Google BigQuery 44,5% minder data verwerken en kosten-effectiever zijn dan niet-reasoning-modellen, terwijl snellere uitvoering niet noodzakelijk leidt tot lagere cloud-kosten door grote variatie in query-inefficiëntie.

Saurabh Deochake, Debajyoti Mukhopadhyay2026-03-10💻 cs

Physics-Informed Neural Networks for Device and Circuit Modeling: A Case Study of NeuroSPICE

Deze paper introduceert NeuroSPICE, een framework voor physics-informed neural networks dat circuitvergelijkingen oplost via backpropagatie om zo flexibele surrogate-modellen te bieden voor het simuleren van complexe en opkomende apparaten zoals ferro-elektrische geheugens.

Chien-Ting Tung, Chenming Hu2026-03-10🔬 physics.app-ph

Toward a Physical Theory of Intelligence

Dit artikel introduceert het Conservation-Congruent Encoding (CCE)-framework, een substraat-neutraal fysiek model dat intelligentie en bewustzijn beschrijft als processen waarbij open systemen door irreversibele overgangen en dissipatie informatie verwerken, waardoor een verenigde link wordt gelegd tussen thermodynamica, kwantummeting en de geometrie van de ruimtetijd.

Peter David Fagan2026-03-10💻 cs

Reliable Grid Forecasting: State Space Models for Safety-Critical Energy Systems

Deze studie introduceert een operationeel veiligheidsgericht evaluatiekader voor stroomnetvoorspelling dat de tekortkomingen van traditionele nauwkeurigheidsmetrieken blootlegt en aantoont dat, hoewel state-space modellen en geavanceerde weather-fusie strategieën de betrouwbaarheid verbeteren, probabilistische kalibratie zonder expliciete bias-beperkingen kan leiden tot onveilige "schijnveiligheid" door systematische overvoorspelling.

Sunki Hong, Jisoo Lee2026-03-10⚡ eess

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

Dit paper introduceert DrivingGen, het eerste uitgebreide benchmarkkader voor generatieve wereldmodellen in autonoom rijden, dat een diverse dataset en nieuwe meetmaten combineert om de prestaties van bestaande modellen op het gebied van visuele realisme, trajectplausibiliteit, temporele coherentie en controleerbaarheid te evalueren.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

Batch-of-Thought: Cross-Instance Learning for Enhanced LLM Reasoning

Dit paper introduceert Batch-of-Thought (BoT), een trainingsvrije methode die de redeneervermogens van grote taalmodellen verbetert door gerelateerde queries gezamenlijk te verwerken voor kruisinstanceleer, wat resulteert in hogere nauwkeurigheid, betere kalibratie en aanzienlijke kostenreductie.

Xuan Yang, Furong Jia, Roy Xie, Xiong Xi, Hengwei Bian, Jian Li, Monica Agrawal2026-03-10💻 cs

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

Het NC-Bench-paper introduceert een nieuw, theorieonderbouwd benchmarkkader dat zich richt op de vorm en structuur van natuurlijke gesprekken in plaats van inhoud, en waarmee de conversatievaardigheden van grote taalmodellen worden geëvalueerd via drie sets die basispatronen, RAG-integratie en complexe verzoeken testen.

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj Gala2026-03-10💬 cs.CL

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Dit onderzoek onthult dat de LAION-Aesthetics Predictor, een veelgebruikt model voor het beoordelen van beeldkwaliteit, systematische vooroordelen vertoont die de westerse en mannelijke blik versterken door afbeeldingen met vrouwelijke of niet-westerse elementen te discrimineren, en pleit voor een verschuiving naar meer pluriforme evaluatiemethoden.

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

Dit paper introduceert een veiligheidsarchitectuur voor Computer Use Agents die prompt-injectie-aanvallen voorkomt door een vertrouwd 'Single-Shot' planner te gebruiken om een volledig uitvoeringsgraf vooraf te genereren, terwijl aanvullende maatregelen nodig zijn om branch-steering-aanvallen te weren zonder de functionaliteit te offeren.

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao2026-03-10💻 cs

BoxMind: Closed-loop AI strategy optimization for elite boxing validated in the 2024 Olympics

Dit paper introduceert BoxMind, een gesloten-lus AI-systeem dat ongestructureerde videodata omzet in strategische inzichten en tijdens de Olympische Spelen van 2024 de prestaties van het Chinese nationale boksteam heeft ondersteund bij het behalen van drie gouden en twee zilveren medailles.

Kaiwen Wang, Kaili Zheng, Rongrong Deng, Qingmin Fan, Milin Zhang, Zongrui Li, Xuesi Zhou, Bo Han, Liren Chen, Chenyi Guo, Ji Wu2026-03-10💻 cs

Multifaceted Scenario-Aware Hypergraph Learning for Next POI Recommendation

Dit paper introduceert MSAHG, een hypergraafleermethode die scenario-specifieke mobiliteitspatronen ontrafelt en conflicterende optimalisatiedoelen oplost om de prestaties van de volgende POI-aanbeveling in Location-Based Social Networks aanzienlijk te verbeteren.

Yuxi Lin, Yongkang Li, Jie Xing, Zipei Fan2026-03-10💻 cs

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

DevBench is een door telemetry gedreven benchmark die Large Language Models evalueert op realistische code-aanvullingstaken om ecologische validiteit te waarborgen en bruikbare inzichten te bieden voor modelselectie en -verbetering.

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie Nallipogu2026-03-10🤖 cs.LG

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Dit paper introduceert MAS-Orchestra, een trainingsframework dat multi-agent systemen optimaliseert door orkestratie te formuleren als function-calling reinforcement learning, en MASBENCH, een gecontroleerde benchmark die aantoont dat de voordelen van multi-agent systemen sterk afhankelijk zijn van taakstructuur en niet universeel gelden.

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq Joty2026-03-10💬 cs.CL

← Vorige Volgende →